In [30]:
import os
import psycopg2
from sqlalchemy import create_engine
from dotenv import load_dotenv
import chromadb
import pandas as pd

In [20]:
# Obtener las variables de entorno
db_user = os.getenv('POSTGRES_USER')
db_password = os.getenv('POSTGRES_PASSWORD')
db_port = os.getenv('DEPLOYMENT_POSTGRES_DB_PORT')
db_chroma_host = os.getenv('DEPLOYMENT_CHROMA_DB_HOST')
db_chroma_port = os.getenv('DEPLOYMENT_CHROMA_DB_PORT')
OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')
chroma_connection_credentials = {
    "host": db_chroma_host,
    "port": db_chroma_port
}
print(chroma_connection_credentials)

{'host': 'localhost', 'port': '8001'}


In [32]:
# Crear la conexion a la base de datos
connection_string = f'postgresql://{db_user}:{db_password}@localhost:{db_port}/postgres'
engine = create_engine(connection_string)
### Agregar la columna id como la primary key
conn = psycopg2.connect(
    dbname='postgres',
    user=db_user,
    password=db_password,
    host='localhost',
    port=db_port
)

In [21]:
import chromadb.utils.embedding_functions as embedding_functions
openai_ef = embedding_functions.OpenAIEmbeddingFunction(
                api_key=OPENAI_API_KEY,
                model_name="text-embedding-3-small"
            )

In [74]:

# Example setup of the client to connect to your chroma server
print(chroma_connection_credentials)
client = chromadb.HttpClient(**chroma_connection_credentials)
client.delete_collection("emarket_metadata")
collection = client.get_or_create_collection(
    name="emarket_metadata", embedding_function=openai_ef,
    metadata={"hnsw:space": "cosine"},)

{'host': 'localhost', 'port': '8001'}


In [76]:
query = f"SELECT * FROM public.metadata_tablas LIMIT 100;"
df = pd.read_sql(query, conn)
df["content"] = df["name"] + ". " + df["description"]
# create a loop using iterrows
columnas_tabla = ['name' , 'XMcode' , 'entity' , 'granularity' , 'units' , 'description']
documents = []
ids = []
metas = []
for index, row in df.iterrows():
    # get the row as a dictionary
    row_dict = row.to_dict()
    id = row_dict["id"]
    content = row_dict["content"]
    # using compressed list create a new dictionary using columnas_tabla
    metadata = {key: row_dict[key] for key in columnas_tabla}
    # append the document to the list
    documents.append(content)
    ids.append(str(id))
    metas.append(metadata)
if len(documents) == len(ids) and len(ids) == len(metas):
    print("All lists have the same length")
else:
    raise Exception("Lists have different lengths")

collection.add(
    documents=documents,
    ids=ids,
    metadatas=metas
)


  df = pd.read_sql(query, conn)


All lists have the same length


In [94]:
q = "cual es la generacion real del recurso Ituango "
limit = 0.8
results = collection.query(query_texts=[q], n_results=10)
if len(results.get("metadatas", {})[0]) > 0:
    metadata = results.get("metadatas", {})[0]
    ids = results.get("ids", {})[0]
    distances = results.get("distances", {})[0]
    print("podemos consultar las tablas ....")
    for idx, value in enumerate(metadata):
        if distances[idx] < limit:
            print(
                f"{ids[idx]} ===> ({distances[idx]}) {value['name']} - {value['description']}")
    print("para construir su respuesta")
    

podemos consultar las tablas ....
20 ===> (0.5222806930541992) Generación Ideal por Recurso - Despacho de generacion que resulta de considerar una red de transporte inexistente
37 ===> (0.5399593710899353) Generación Programada por Recurso - Despacho de generacion esperado de las centrales, que resulta de considerar la red de transporte real
9 ===> (0.5622221231460571) Generación por Recurso - Generacion neta de cada una de las plantas Nacionales en sus puntos de frontera.
5 ===> (0.5822021961212158) Generación Ideal por Sistema - Despacho de generacion que resulta de considerar una red de transporte inexistente
35 ===> (0.5919340252876282) Generación Fuera de Mérito por Recurso - Generación forzada requerida para suplir las Restricciones del SIN, cuyo precio de oferta es superior al precio de bolsa.
34 ===> (0.5940731763839722) Generación de Seguridad por Recurso - Generación que se requiere para garantizar condiciones de seguridad y confiabilidad, en la operación del Sistema Intercon