<img src="../imgs/Adevinta-ULPGC-logo.jpg" width="530px" align="right">

# **Bases de datos vectoriales**

Las bases de datos vectoriales son sistemas de gestión de bases de datos diseñados específicamente para almacenar, indexar y realizar búsquedas en vectores de alta dimensión. Estos vectores suelen representar datos complejos como imágenes, videos, texto y datos de audio en forma de embeddings, que son representaciones numéricas densas obtenidas mediante técnicas de aprendizaje profundo o algoritmos de procesamiento de señales. La capacidad de trabajar con este tipo de datos las hace especialmente útiles en el campo del aprendizaje automático y el procesamiento de lenguaje natural (NLP), entre otros.

Las características principales de las bases de datos vectoriales incluyen:

### **Almacenamiento Eficiente**
Pueden almacenar grandes cantidades de vectores de manera eficiente, aprovechando técnicas de compresión y estructuras de datos especializadas.

### **Indexación y Búsqueda Rápida**
Utilizan algoritmos de indexación avanzados para facilitar búsquedas rápidas y eficientes en espacios de alta dimensión. Esto permite realizar consultas como búsquedas de similitud ("los más similares a") o búsquedas por proximidad, donde el objetivo es encontrar elementos similares a un vector de consulta en la base de datos.

<img src="imgs/chroma-logo.png" width="100px">  

## **Chroma**

https://docs.trychroma.com/

Chroma es una base de datos de *embeddings* de código abierto que facilita la construcción de aplicaciones al hacer que el conocimiento, los hechos y las habilidades sean conectables a los LLMs.

Chroma proporciona las herramientas para:

- Almacenar embeddings y sus metadatos
- Incrustar documentos y consultas
- Buscar embeddings

Chroma prioriza:

- La simplicidad y la productividad del desarrollador
- Análisis por encima de la búsqueda
- Rapidez

Chroma consta de un SDK para un cliente de Python, SDK de cliente de JavaScript/TypeScript y una aplicación de servidor.
Chroma está licenciado bajo Apache 2.0

<img src="imgs/hrm4.svg" width="700px">


Intalación de Chroma

In [None]:
!pip install chromadb

Creamos un cliente de Chroma

In [1]:
import chromadb
chroma_client = chromadb.Client()

In [2]:
collection = chroma_client.create_collection(name="memory")

In [3]:
collection.add(
    documents=[
        "El cumpleaños de mi hermano es el 5 de mayo",
        "peras, manzanas, uvas, plátanos, fresas",
        "amarillo, azul, rojo, verde, negro, blanco",
        ],
    ids=["id1", "id2", "id3"]
)

In [4]:
results = collection.query(
    # query_texts=["¿Recuérdame lo que necesito comprar?",],
    # query_texts=["¿Cuándo es el cumpleaños de mi hermano?",],
    query_texts=["naranjas",],
    n_results=3
)

In [5]:
results

{'ids': [['id3', 'id2', 'id1']],
 'distances': [[1.2155519723892212, 1.2788119316101074, 1.5140050649642944]],
 'metadatas': [[None, None, None]],
 'embeddings': None,
 'documents': [['amarillo, azul, rojo, verde, negro, blanco',
   'peras, manzanas, uvas, plátanos, fresas',
   'El cumpleaños de mi hermano es el 5 de mayo']],
 'uris': None,
 'data': None}

### **Chroma Persistente**

Podemos configurar el cliente para que sea persistente, es decir, que los datos se mantengan en la base de datos incluso después de cerrar el cliente.


In [2]:
import chromadb
client = chromadb.PersistentClient(path="./memory")

In [3]:
# make a new collection
collection = client.create_collection("interactions")

In [4]:
# list all collections
client.list_collections()

[Collection(name=interactions)]

In [35]:
client.delete_collection("interactions")

In [5]:
collection.add(
    documents=[
        "La casa que busca el cliente de Tarragona la quiere en Barcelona",
        "El precio máximo que busca el cliente de Tarragona es de 300.000 euros",
        "Anabel Díaz busca una casa con 3 habitaciones",
        "Pasar presupuesto al cliente de Tarragona"
        ],
    metadatas=[
        {"seller": "juan", "timestamp": "2021-10-10"},
        {"seller": "juan", "timestamp": "2021-10-21"},
        {"seller": "laura", "timestamp": "2021-10-07"},
        {"seller": "antonio", "timestamp": "2021-09-03"}
    ],
    ids=["id01", "id02", "id03", "id04"]
)

In [6]:
results = collection.query(
    query_texts=["¿Qué busca el cliente de Tarragona?",],
    n_results=3
)

results

{'ids': [['id02', 'id01', 'id04']],
 'distances': [[0.4318939457459855, 0.4465060700453689, 0.530094619305671]],
 'metadatas': [[{'seller': 'juan', 'timestamp': '2021-10-21'},
   {'seller': 'juan', 'timestamp': '2021-10-10'},
   {'seller': 'antonio', 'timestamp': '2021-09-03'}]],
 'embeddings': None,
 'documents': [['El precio máximo que busca el cliente de Tarragona es de 300.000 euros',
   'La casa que busca el cliente de Tarragona la quiere en Barcelona',
   'Pasar presupuesto al cliente de Tarragona']],
 'uris': None,
 'data': None}

In [41]:
results = collection.query(
    query_texts=["¿Qué busca el cliente de Tarragona?",],
    n_results=3,
    where={"seller": "juan"}
)

results

{'ids': [['id02', 'id01']],
 'distances': [[0.4318939457459855, 0.4465060700453689]],
 'metadatas': [[{'seller': 'juan', 'timestamp': '2021-10-21'},
   {'seller': 'juan', 'timestamp': '2021-10-10'}]],
 'embeddings': None,
 'documents': [['El precio máximo que busca el cliente de Tarragona es de 300.000 euros',
   'La casa que busca el cliente de Tarragona la quiere en Barcelona']],
 'uris': None,
 'data': None}