# **Instalar dependencias**

In [None]:
# Instalar Chroma
!pip install chromadb


Collecting chromadb
  Downloading chromadb-0.6.2-py3-none-any.whl.metadata (6.8 kB)
Collecting build>=1.0.3 (from chromadb)
  Downloading build-1.2.2.post1-py3-none-any.whl.metadata (6.5 kB)
Collecting chroma-hnswlib==0.7.6 (from chromadb)
  Downloading chroma_hnswlib-0.7.6-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (252 bytes)
Collecting fastapi>=0.95.2 (from chromadb)
  Downloading fastapi-0.115.6-py3-none-any.whl.metadata (27 kB)
Collecting uvicorn>=0.18.3 (from uvicorn[standard]>=0.18.3->chromadb)
  Downloading uvicorn-0.34.0-py3-none-any.whl.metadata (6.5 kB)
Collecting posthog>=2.4.0 (from chromadb)
  Downloading posthog-3.8.1-py2.py3-none-any.whl.metadata (2.7 kB)
Collecting onnxruntime>=1.14.1 (from chromadb)
  Downloading onnxruntime-1.20.1-cp310-cp310-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (4.5 kB)
Collecting opentelemetry-exporter-otlp-proto-grpc>=1.2.0 (from chromadb)
  Downloading opentelemetry_exporter_otlp_proto_grpc-1.29.0-py3-

## **Conectar a Chroma**

In [None]:
import chromadb

# Crear un cliente de Chroma sin configuración obsoleta
client = chromadb.Client()

# Conectar con persistencia
#client = chromadb.PersistentClient(persist_directory="./chroma_data")

# Crear o obtener una colección
collection = client.get_or_create_collection(name="mi_coleccion")
print("Colección creada:", collection.name)


Colección creada: mi_coleccion


## Migrar Datos

In [None]:
pip install chroma-migrate


In [None]:
chroma-migrate


### Crear Datos

In [None]:
historia="""Fundada en 2009 en Medellín, Tiendas D1 se convirtió en la primera cadena de descuento en Colombia, introduciendo un formato que transformó las compras de los colombianos. Actualmente, cuenta con más de 24,000 empleados y más de 2,500 tiendas en 31 departamentos y 520 municipios, cubriendo el 87% del territorio nacional. Su objetivo es ofrecer productos de alta calidad a precios bajos, posicionándose como la primera opción de compra para los consumidores."""

horarios=""" Los horarios de atención de Tiendas D1 suelen ser de 7:00 a.m. a 9:00 p.m. Sin embargo, estos pueden variar según la ubicación y las regulaciones locales. Se recomienda consultar el horario específico de la tienda más cercana para obtener información precisa."""

productos="""Tiendas D1 ofrece una amplia variedad de productos, incluyendo alimentos, bebidas, productos de limpieza, artículos para el hogar y más. Una característica distintiva es su enfoque en marcas propias de excelente calidad, muchas de las cuales son de industria nacional. Además, promueven la sostenibilidad y la inclusión social en sus operaciones."""

In [None]:
# Agregar documentos a la base de datos
data = {
    "documents": [historia, horarios, productos],
    "metadatas": [{"source":"Como se creó"},{"source":"horario para entrar y salir a comprar"},{"source":"lo que puedo comprar"}],
    "ids": ["id1","id2","id3"]
}

collection.add(**data)
print("Documentos agregados correctamente.")




Documentos agregados correctamente.


## Leer o consultar datos

In [None]:
# Leer todos los documentos
resultados = collection.get()

# Verificar si hay documentos
if resultados:
    print("Documentos en la colección:")
    for idx, doc in enumerate(resultados['documents']):
        print(f"\nDocumento {idx + 1}:")
        print(f"  Contenido: {doc}")
        #print(f"  Embeddings: {resultados['embeddings'][idx]}")
        print(f"  Metadata: {resultados['metadatas'][idx]}")
        print(f"  IDs: {resultados['ids'][idx]}")
else:
    print("No hay documentos en la colección.")


Documentos en la colección:

Documento 1:
  Contenido: Este es el primer documento
  Metadata: {'autor': 'Juan'}
  IDs: doc1

Documento 2:
  Contenido: Este es el segundo documento
  Metadata: {'autor': 'Maria'}
  IDs: doc2


# Query

Se trata de las búsquedas semánticas, usa la base de datos vectorial para lograr encontrar la similitud más acertada, cabe aclarar que esto es una busqueda basada en texto dentro de la base de datos vectoriall. Esto puede funcionar, pero no aprovecha el poder de las búsquedas semánticas, que son el verdadero propósito de una base de datos vectorial como ChromaDB.

In [None]:
results = collection.query(
    query_texts=["¿Que productos venden en las tiendas d1?"],
    n_results=2  #Número de resultados
)

for i, (doc, metadata, distance) in enumerate(
    zip(results['documents'][0], results['metadatas'][0], results['distances'][0])
):
    print(f"Resultado {i+1}:")
    print(f"- Documento: {doc}")
    print(f"- Metadata: {metadata}")
    print(f"- Distancia: {distance}")
    print("-" * 40)


Resultado 1:
- Documento: Tiendas D1 ofrece una amplia variedad de productos, incluyendo alimentos, bebidas, productos de limpieza, artículos para el hogar y más. Una característica distintiva es su enfoque en marcas propias de excelente calidad, muchas de las cuales son de industria nacional. Además, promueven la sostenibilidad y la inclusión social en sus operaciones.
- Metadata: {'source': 'lo que puedo comprar'}
- Distancia: 0.7365313768386841
----------------------------------------
Resultado 2:
- Documento: Fundada en 2009 en Medellín, Tiendas D1 se convirtió en la primera cadena de descuento en Colombia, introduciendo un formato que transformó las compras de los colombianos. Actualmente, cuenta con más de 24,000 empleados y más de 2,500 tiendas en 31 departamentos y 520 municipios, cubriendo el 87% del territorio nacional. Su objetivo es ofrecer productos de alta calidad a precios bajos, posicionándose como la primera opción de compra para los consumidores.
- Metadata: {'source'

## Actualizar o Modificar

Chroma no tiene una operación explícita de "actualizar", pero puedes eliminar y volver a insertar los datos:

In [None]:
# Actualizar un documento (Eliminar e insertar de nuevo)
collection.delete(ids=["doc1"])  # Eliminar
collection.add(ids=["doc1"], documents=["Documento actualizado"], metadatas=[{"autor": "Pedro"}])  # Agregar de nuevo
print("Documento actualizado.")


Documento actualizado.


## Eliminar Datos

In [None]:
# Eliminar documentos por ID
collection.delete(ids=["id1"])
print("Documento eliminado.")


Documento eliminado.


# Usar Embeddings con hughingface

## Instalacion de transformers

al instalar transformers no hay necesidad de usar una api para que limite el procesamiento de datos

In [None]:
pip install transformers




## Cargar el modelo y el tokenizador

configuramos el modelo para embeddings

In [None]:
!pip install sympy



In [None]:
!pip install --upgrade sympy



In [None]:
from transformers import AutoTokenizer, AutoModel
import torch

# Cargar el modelo y el tokenizador
modelo = "sentence-transformers/all-MiniLM-L6-v2"
tokenizer = AutoTokenizer.from_pretrained(modelo)
model = AutoModel.from_pretrained(modelo)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

## Generación de embeddings

lo siguiente es una función que convierte texto en vectores

In [None]:
def generar_embedding(texto):
    # Tokenizar el texto
    tokens = tokenizer(
        texto,
        padding=True,  # Agrega padding si es necesario
        truncation=True,  # Trunca si el texto es muy largo
        return_tensors="pt"  # Retorna tensores de PyTorch
    )

    # Pasar los tokens al modelo para obtener embeddings
    with torch.no_grad():
        output = model(**tokens)
        # La última capa oculta (hidden state)
        embeddings = output.last_hidden_state
        # Pooling para obtener un solo vector representativo del texto
        embeddings = torch.mean(embeddings, dim=1)

    return embeddings.squeeze().numpy()  # Convertir a numpy array


## Agregarmos Datos

In [None]:
collection.delete(ids=["id1"])
collection.delete(ids=["id2"])
collection.delete(ids=["id3"])


data = {
    "documents": [
        "Fundada en 2009 en Medellín, Tiendas D1 se convirtió en la primera cadena de descuento en Colombia.",
        "Las horas de atención de Tiendas D1 suelen ser de 7:00 a.m. a 9:00 p.m.el horario puede variar",
        "Tiendas D1 ofrece una amplia variedad de productos, incluyendo alimentos, bebidas y artículos para el hogar."
    ],
    "metadatas": [
        {"source": "Como se creó", 'categoria': 'historia'},
        {"source": "horario para entrar y salir", 'categoria': ["horarios", "información"]},
        {"source": "lo que puedo comprar", 'categoria': 'productos'}
    ],
    "ids": ["id1", "id2", "id3"],
    "embeddings": [
        generar_embedding("La historia sobre el D1 es fascinante."),
        generar_embedding("D1 ofrece horarios convenientes para sus clientes."),
        generar_embedding("Los productos en D1 son económicos y variados.")
    ],
}

# Agregar documentos a la colección
collection.add(**data)
print("Documentos agregados correctamente.")


Documentos agregados correctamente.


## Hacer consultas con embeddings

Genera un embedding para la consulta del usuario y realiza una búsqueda en la base de datos

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def calcular_similitud(query, texto):
    """
    Calcula la similitud de coseno entre la consulta y un texto.
    """
    vectorizador = TfidfVectorizer().fit([query, texto])
    vectores = vectorizador.transform([query, texto])
    return cosine_similarity(vectores[0], vectores[1])[0][0]

def buscar_mejor_coincidencia(query, collection):
    """
    Busca el documento y metadato más similar a la consulta.
    """
    # Generar el embedding de la consulta
    query_embedding = generar_embedding(query)

    # Realizar la consulta inicial para obtener documentos
    results = collection.query(
        query_embeddings=[query_embedding],
        n_results=1  # Ajusta según tus necesidades
    )

    documentos = results['documents'][0]
    metadatos = results['metadatas'][0]

    # Evaluar similitudes con todos los resultados
    mejores_resultados = []
    for doc, meta in zip(documentos, metadatos):
        texto_completo = f"{doc} {meta}"  # Combinar documento y metadatos
        similitud = calcular_similitud(query, texto_completo)
        mejores_resultados.append((doc, meta, similitud))

    # Ordenar por similitud descendente
    mejores_resultados = sorted(mejores_resultados, key=lambda x: x[2], reverse=True)

    # Mostrar el resultado más relevante
    if mejores_resultados:
        mejor_doc, mejor_meta, mejor_similitud = mejores_resultados[0]
        print("Mejor coincidencia encontrada:")
        print(f"- Documento: {mejor_doc}")
        print(f"- Metadata: {mejor_meta}")
        print(f"- Similitud: {mejor_similitud:.2f}")
    else:
        print("No se encontraron coincidencias relevantes.")

# Consulta del usuario
query = "a que hora abren en la tienda??"

# Realizar la búsqueda con la mejor coincidencia
buscar_mejor_coincidencia(query, collection)


Mejor coincidencia encontrada:
- Documento: Las horas de atención de Tiendas D1 suelen ser de 7:00 a.m. a 9:00 p.m.
- Metadata: {'source': 'horario para entrar y salir'}
- Similitud: 0.00


## Filtros Personalizados

# Categorías en ChromaDB vs Bases de Datos Relacionales

Las **categorías** en ChromaDB funcionan más como etiquetas o metadatos asociados a un documento, en lugar de estructuras estrictamente definidas como tablas en una base de datos relacional. A continuación, se explican las similitudes y diferencias clave entre este enfoque basado en metadatos y el de las bases de datos relacionales tradicionales:

---

## Similitudes con Tablas

1. **Organización Lógica**:  
   Las categorías actúan como una forma de agrupar documentos que comparten propiedades comunes, similar a cómo las tablas agrupan filas relacionadas en una base de datos relacional.

2. **Consulta por Categorías**:  
   Puedes buscar documentos que pertenezcan a ciertas categorías de manera análoga a realizar una consulta filtrada en una tabla.

---

## Diferencias Principales

| **Aspecto**                 | **ChromaDB (NoSQL basado en vectores)**         | **Base de Datos Relacional**               |
|-----------------------------|-----------------------------------------------|-------------------------------------------|
| **Estructura**              | No tiene un esquema fijo. Cada documento puede tener metadatos diferentes. | Esquema fijo definido por tablas, columnas y relaciones. |
| **Flexibilidad en Categorías** | Un documento puede pertenecer a múltiples categorías simultáneamente (metadatos como listas). | Las categorías suelen representarse mediante relaciones (p. ej., tablas intermedias o claves foráneas). |
| **Relaciones**              | No hay relaciones estrictas entre documentos, aunque puedes simular asociaciones mediante metadatos. | Relación estricta entre tablas mediante claves primarias y foráneas. |
| **Consultas**               | Consultas basadas en similitudes (vectores) y filtrado de metadatos. | Consultas basadas en operaciones SQL estructuradas. |
| **Escalabilidad**           | Diseñado para manejar grandes volúmenes de datos no estructurados. | Diseñado para datos estructurados y transacciones complejas. |
| **Filosofía**               | Optimizado para búsquedas semánticas y análisis vectorial. | Optimizado para integridad referencial y transacciones. |

---

## Ejemplo Comparativo

### En una Base de Datos Relacional:

Si tienes categorías como "productos", "historia" y "horarios", podrías tener tablas específicas para cada una:

- Una tabla `Productos` con columnas como `id`, `nombre`, `precio`, etc.
- Una tabla `Horarios` con columnas como `id`, `hora_apertura`, `hora_cierre`, etc.
- Relaciones entre tablas (p. ej., `Productos` y `Categorías` mediante una tabla intermedia).

---

### En ChromaDB:

En lugar de tablas, cada documento es un objeto autónomo con metadatos que definen a qué categorías pertenece. Ejemplo:

```json
{
    "document": "Horarios de apertura",
    "metadata": {
        "categorias": ["horarios", "información"],
        "source": "Horario para entrar y salir a comprar"
    }
}


In [None]:
# Filtros personalizados
def buscar_por_filtro(collection, categoria=None):
    """
    Busca documentos en la colección basándose en un filtro de metadatos.
    """
    filtros = {}
    if categoria:
        filtros["categoria"] = categoria

    resultados = collection.query(
        query_texts=[""],  # Query vacío porque filtramos solo por metadatos
        n_results=10,
        where=filtros  # Filtrar por metadatos
    )

    if resultados["documents"]:
        print("\nDocumentos filtrados:")
        for idx, (doc, meta) in enumerate(zip(resultados["documents"][0], resultados["metadatas"][0])):
            print(f"\nDocumento {idx + 1}:")
            print(f"  Contenido: {doc}")
            print(f"  Metadata: {meta}")
    else:
        print("No se encontraron documentos con los filtros proporcionados.")

### Ejemplo de uso de los filtros

In [None]:
print("\n--- Búsqueda por categoría: 'productos' ---")
buscar_por_filtro(collection, categoria="productos")

print("\n--- Búsqueda por categoría: 'horarios' ---")
buscar_por_filtro(collection, categoria="horarios")




--- Búsqueda por categoría: 'productos' ---

Documentos filtrados:

Documento 1:
  Contenido: Tiendas D1 ofrece una amplia variedad de productos, incluyendo alimentos, bebidas y artículos para el hogar.
  Metadata: {'categoria': 'productos', 'source': 'lo que puedo comprar'}

--- Búsqueda por categoría: 'horarios' ---





Documentos filtrados:

Documento 1:
  Contenido: Las horas de atención de Tiendas D1 suelen ser de 7:00 a.m. a 9:00 p.m.el horario puede variar
  Metadata: {'categoria': 'horarios', 'source': 'horario para entrar y salir'}


## Mostrar todo menos....

In [None]:
# Crear un filtro para excluir documentos de una categoría específica
categoria_a_excluir = "horarios"

# Obtener todos los documentos
all_results = collection.get()

# Filtrar los resultados para excluir la categoría deseada
filtered_results = {
    "documents": [],
    "metadatas": [],
    "ids": []
}

for i in range(len(all_results["documents"])):
    if categoria_a_excluir not in all_results["metadatas"][i].get("categoria", []): # Check if categoria_a_excluir is not in the 'categoria' list (or if 'categoria' is missing)
        filtered_results["documents"].append(all_results["documents"][i])
        filtered_results["metadatas"].append(all_results["metadatas"][i])
        filtered_results["ids"].append(all_results["ids"][i])

# Mostrar resultados
if filtered_results["documents"]:
    print("Documentos sin la categoría excluida:")
    for idx, doc in enumerate(filtered_results["documents"]):
        print(f"\nDocumento {idx + 1}:")
        print(f"  Contenido: {doc}")
        print(f"  Metadata: {filtered_results['metadatas'][idx]}")
        print(f"  ID: {filtered_results['ids'][idx]}")
else:
    print("No hay documentos que cumplan con los criterios.")

Documentos sin la categoría excluida:

Documento 1:
  Contenido: Fundada en 2009 en Medellín, Tiendas D1 se convirtió en la primera cadena de descuento en Colombia.
  Metadata: {'categoria': 'historia', 'source': 'Como se creó'}
  ID: id1

Documento 2:
  Contenido: Tiendas D1 ofrece una amplia variedad de productos, incluyendo alimentos, bebidas y artículos para el hogar.
  Metadata: {'categoria': 'productos', 'source': 'lo que puedo comprar'}
  ID: id3
