In [7]:
from chromadb import PersistentClient
client = PersistentClient(path="./chroma_db")
collection = client.get_or_create_collection(name="productos")
from openai import OpenAI
import pandas as pd

client = OpenAI(
    # This is the default and can be omitted
    # api_key=os.environ.get("OPENAI_API_KEY"),
    api_key = "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",
)

In [8]:
def get_embedding(text, model="text-embedding-ada-002"):
    text = text.replace("\n", " ")
    response = client.embeddings.create(input = [text], model=model).data[0].embedding
    return response

In [11]:
from tabulate import tabulate

def visualizar_tabla_chromadb(collection, limite=10):
    resultados = collection.get(include=["metadatas", "documents"], limit=limite)
    datos = [
        {
            "ID": id_,
            "Documento": doc,
            "Producto": meta["producto"],
            "Enlace": meta.get("enlace", "No disponible"),
            "Precio": meta.get("precio", "No disponible"),
            "Descripción": meta.get("descripcion", "No disponible")
        }
        for id_, doc, meta in zip(resultados["ids"], resultados["documents"], resultados["metadatas"])
    ]
    print(tabulate(datos, headers="keys", tablefmt="fancy_grid"))


In [19]:
def visualize_chromadb_data(collection, limit=10):
    """
    Visualiza la información almacenada en una colección de ChromaDB.
    
    Args:
        collection: La colección de ChromaDB que deseas visualizar.
        limit: Número máximo de registros a mostrar (por defecto 10).
        
    Returns:
        None. Imprime los datos en formato tabular.
    """
    # Recupera todos los IDs de la colección
    ids = collection.get()['ids'][:limit]
    
    # Inicializa listas para guardar los datos
    data_rows = []
    
    for i in ids:
        # Recupera los datos de cada ID
        record = collection.get(ids=[i])
        document = record.get('documents', [None])[0] if record.get('documents') else "Sin documento"
        metadata = record.get('metadatas', [None])[0] if record.get('metadatas') else "Sin metadatos"
        embedding = record.get('embeddings', [None])[0] if record.get('embeddings') else "Sin embedding"
        
        # Agrega una fila a la lista
        data_rows.append({
            'ID': i,
            'Documento': document,
            'Metadatos': metadata,
            'Embedding': embedding
        })
    
    # Convierte los datos a un DataFrame para mejor visualización
    df = pd.DataFrame(data_rows)
    print(df.to_string(index=False))  # Imprime el DataFrame sin índice



In [20]:
# Ejemplo de uso
visualize_chromadb_data(collection)

ID                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       Documento                                                                                                                                                                                      

In [21]:
def visualize_chromadb_with_valid_embeddings(collection, limit=10):
    """
    Visualiza los registros de ChromaDB que tienen embeddings válidos.
    
    Args:
        collection: La colección de ChromaDB que deseas visualizar.
        limit: Número máximo de registros a mostrar (por defecto 10).
        
    Returns:
        None. Imprime los datos en formato tabular.
    """
    # Recupera todos los IDs de la colección
    ids = collection.get()['ids']
    
    # Inicializa listas para guardar los datos
    data_rows = []
    count = 0
    
    for i in ids:
        # Recupera los datos de cada ID
        record = collection.get(ids=[i])
        embedding = record.get('embeddings', [None])[0] if record.get('embeddings') else None
        
        # Solo procesar registros con embeddings válidos
        if embedding is not None:
            document = record.get('documents', [None])[0]
            metadata = record.get('metadatas', [None])[0]
            
            # Agrega una fila a la lista
            data_rows.append({
                'ID': i,
                'Documento': document if document else "Sin documento",
                'Metadatos': metadata if metadata else "Sin metadatos",
                'Embedding': embedding
            })
            
            count += 1
            if count >= limit:
                break
    
    # Convierte los datos a un DataFrame para mejor visualización
    if data_rows:
        df = pd.DataFrame(data_rows)
        print(df.to_string(index=False))  # Imprime el DataFrame sin índice
    else:
        print("No hay registros con embeddings válidos.")

# Ejemplo de uso
visualize_chromadb_with_valid_embeddings(collection, limit=10)


No hay registros con embeddings válidos.


In [None]:
def query_products_chromadb(user_query, k=5):
    """
    Realiza una consulta en ChromaDB y devuelve los productos más similares.
    
    :param user_query: La consulta del usuario en forma de texto.
    :param k: Número de resultados a devolver (por defecto 5).
    :return: Una lista de diccionarios con información sobre los productos más similares.
    """
    # Generar embedding de la consulta
    query_embedding = get_embedding(user_query)
    
    # Buscar en ChromaDB los más similares
    results = collection.query(
        query_embeddings=[query_embedding],
        n_results=k,
        include=["metadatas", "distances"]
    )
    
    # Formatear resultados
    productos = [
        {
            "nombre_producto": meta["producto"],
            "enlace": meta["enlace"],
            "precio": meta["precio"],
            "descripcion": meta["descripcion"]
        }
        for meta in results["metadatas"]  # Acceso directo a la lista de metadatos
    ]
    return productos


In [None]:
def generate_response(query, productos_relacionados):
    """
    Genera una respuesta basada en una consulta y productos relacionados.
    """
    response = f"Query: {query}\n\nRelated Products:\n"
    for producto in productos_relacionados:
        # Asegúrate de que las claves coincidan con las que se usaron en productos_relacionados
        response += (
            f"Nombre: {producto.get('nombre_producto', 'N/A')}\n"
            f"Enlace: {producto.get('enlace', 'N/A')}\n"
            f"Precio: {producto.get('precio', 'N/A')}\n"
            f"Descripción: {producto.get('descripcion', 'N/A')}\n\n"
        )
    return response



In [None]:
productos_relacionados = query_products_chromadb("¿qué productos puedo utilizar para freir papas?")
respuesta_gpt = generate_response("¿qué productos puedo utilizar para freir papas?", productos_relacionados)
print(respuesta_gpt)
