# Taller 2 - Exploraci√≥n de ChromaDB como Base de Datos Vectorial

**Estudiante:** John Alexander Chicaiza  
**Programa:** Especializaci√≥n en Construcci√≥n de Software  
**Universidad:** Universidad de Nari√±o  
**Docente:** PhD. Oscar Ceballos  
**Curso:** Bases de Datos Vectoriales  
**Fecha:** Octubre 2025

## Objetivos del Taller

Este taller explora **ChromaDB** como alternativa a Pinecone, implementando todas las operaciones fundamentales de una base de datos vectorial:

-  **Instalaci√≥n y configuraci√≥n** del sistema
-  **Creaci√≥n de colecciones** (equivalente a √≠ndices)
-  **Inserci√≥n de vectores** con metadatos
-  **Consultas de similitud** vectorial
-  **Actualizaci√≥n** de vectores existentes
-  **Eliminaci√≥n** de vectores
-  **An√°lisis comparativo** con otros motores vectoriales

---

## Instalaci√≥n y Configuraci√≥n de ChromaDB

### Instalaci√≥n con Docker Compose (Configuraci√≥n del Proyecto)
```bash
# Iniciar ChromaDB con docker-compose
docker-compose up -d

# Verificar que el servicio est√© corriendo
docker-compose ps
```

El archivo `docker-compose.yml` incluido configura:
- **Imagen:** `ghcr.io/chroma-core/chroma:latest`
- **Puerto:** 8000 (mapeado a localhost)
- **Persistencia:** Volumen `./chroma_data` montado
- **CORS:** Habilitado para desarrollo
- **Reset:** Permitido para pruebas

### Configuraci√≥n del Cliente Python
- **Modo:** Cliente HTTP (servidor independiente)
- **Host:** localhost
- **Puerto:** 8000
- **Persistencia:** Datos almacenados en `chroma_data/`

### Configuraci√≥n del Entorno Virtual Python

Para el desarrollo del taller se configur√≥ un entorno virtual de Python con el fin de aislar las dependencias del proyecto y garantizar un entorno limpio y reproducible. 

**Pasos de configuraci√≥n realizados:**

```bash
# 1. Crear el entorno virtual
python3 -m venv chroma_env

# 2. Activar el entorno virtual
source chroma_env/bin/activate

# 3. Actualizar el gestor de paquetes
pip install --upgrade pip

# 4. Instalar dependencias necesarias
pip install jupyter chromadb

# 5. Verificar instalaci√≥n 
jupyter notebook  # O abrir directamente en VS Code
```

**Entornos de desarrollo utilizados:**
- **Visual Studio Code**: Editor principal con extensi√≥n de Jupyter para notebooks
- **Jupyter Notebook**: Entorno web alternativo para desarrollo interactivo
- **Terminal integrada**: Para comandos Docker y gesti√≥n del entorno virtual

**Estructura del entorno creado:**
- `chroma_env/` - Directorio del entorno virtual
- `chroma_env/bin/` - Ejecutables (Python, pip, jupyter)
- `chroma_env/lib/` - Librer√≠as instaladas (chromadb, jupyter, etc.)

Este setup permite desarrollar y documentar paso a paso las operaciones CRUD y las consultas sem√°nticas sobre ChromaDB desde un entorno local y controlado, utilizando tanto VS Code como Jupyter seg√∫n la preferencia del momento.

---

## 1. Conexi√≥n al Servidor ChromaDB

**Explicaci√≥n t√©cnica:** ChromaDB puede ejecutarse en modo embebido o como servidor HTTP. Aqu√≠ usamos el modo servidor para simular un entorno de producci√≥n.

In [24]:
import chromadb
from chromadb.config import Settings

client = chromadb.HttpClient(
    host="localhost",
    port=8000,
    settings=Settings(allow_reset=True)
)
print("‚úÖ Conectado a Chroma en http://localhost:8000")

‚úÖ Conectado a Chroma en http://localhost:8000


In [25]:
collection = client.create_collection(name="demo_vectores", get_or_create=True)
print("‚úÖ Colecci√≥n disponible:", collection.name)

‚úÖ Colecci√≥n disponible: demo_vectores


## 2. Creaci√≥n de Colecci√≥n

**Concepto:** En ChromaDB, una **colecci√≥n** es equivalente a un **√≠ndice** en Pinecone. Agrupa vectores relacionados y define la funci√≥n de distancia a utilizar.

In [26]:
collection.add(
    ids=["v1", "v2", "v3"],
    embeddings=[
        [0.1, 0.2, 0.3],
        [0.4, 0.5, 0.6],
        [0.9, 0.8, 0.7]
    ],
    metadatas=[
        {"nombre": "vector 1"},
        {"nombre": "vector 2"},
        {"nombre": "vector 3"}
    ]
)
print("‚úÖ Vectores insertados correctamente.")

‚úÖ Vectores insertados correctamente.


##  3. Inserci√≥n de Vectores (CREATE)

**Operaci√≥n fundamental:** Insertamos vectores de 3 dimensiones con sus metadatos asociados. ChromaDB autom√°ticamente calcula y almacena las representaciones optimizadas para b√∫squeda.

In [27]:
result = collection.query(
    query_embeddings=[[0.1, 0.2, 0.25]],
    n_results=2,
    include=["distances", "metadatas"]
)
print("üîé Resultados de la consulta:")
print(result)

üîé Resultados de la consulta:
{'ids': [['v1', 'v2']], 'distances': [[0.002500001, 0.3025]], 'embeddings': None, 'metadatas': [[{'nombre': 'vector 1'}, {'nombre': 'vector 2'}]], 'documents': None, 'uris': None, 'data': None, 'included': ['distances', 'metadatas']}


## 4. Consulta de Similitud (READ)

**B√∫squeda vectorial:** Utilizamos un vector de consulta `[0.1, 0.2, 0.25]` para encontrar los 2 vectores m√°s similares. ChromaDB usa **distancia coseno** por defecto.

In [28]:
collection.update(
    ids=["v1"],
    embeddings=[[0.2, 0.2, 0.2]],
    metadatas=[{"nombre": "vector 1 (actualizado)"}]
)
print("‚úÖ Vector v1 actualizado.")

‚úÖ Vector v1 actualizado.


##  5. Actualizaci√≥n de Vectores (UPDATE)

**Modificaci√≥n en sitio:** ChromaDB permite actualizar tanto el embedding como los metadatos de vectores existentes usando su ID √∫nico.

In [29]:
collection.delete(ids=["v3"])
print("üóëÔ∏è Vector v3 eliminado.")

üóëÔ∏è Vector v3 eliminado.


##  6. Eliminaci√≥n de Vectores (DELETE)

**Limpieza de datos:** Eliminamos vectores espec√≠ficos por ID. Esta operaci√≥n es irreversible y libera espacio en el √≠ndice.

In [30]:
print("Colecciones actuales:", [c.name for c in client.list_collections()])

Colecciones actuales: ['demo_vectores']


In [31]:
info = collection.get()
print("üìò Informaci√≥n de la colecci√≥n:")
print(info)

üìò Informaci√≥n de la colecci√≥n:
{'ids': ['v1', 'v2'], 'embeddings': None, 'metadatas': [{'nombre': 'vector 1 (actualizado)'}, {'nombre': 'vector 2'}], 'documents': [None, None], 'data': None, 'uris': None, 'included': ['metadatas', 'documents']}


## An√°lisis Comparativo: ChromaDB vs Otras Bases de Datos Vectoriales

### ChromaDB vs Pinecone vs Milvus vs Weaviate vs FAISS

| Caracter√≠stica | ChromaDB | Pinecone | Milvus | Weaviate | FAISS |
|----------------|----------|----------|---------|----------|-------|
| **Tipo** | Open Source | SaaS | Open Source | Open Source | Biblioteca |
| **Instalaci√≥n** |  Simple |  Solo nube |  Compleja | Media |  Pip install |
| **Escalabilidad** |  Media |  Alta |  Alta |  Alta |  Local |
| **Costo** |  Gratis |  Pago |  Gratis |  Gratis |  Gratis |
| **Metadatos** |  Nativo |  Nativo |  Nativo |  Avanzado |  Manual |
| **APIs** | Python, REST | Python, REST | Python, Go, Java | Python, GraphQL | Python |
| **Persistencia** |  SQLite/DuckDB |  Nativa |  Configurable |  M√∫ltiples |  RAM |

### Ventajas Espec√≠ficas de ChromaDB

1. **Simplicidad de Uso**: API intuitiva y instalaci√≥n directa
2. **Desarrollo Local**: Perfecto para prototipado y desarrollo
3. **M√∫ltiples Modos**: Embebido, cliente-servidor, persistente
4. **Sin Vendor Lock-in**: Open source completo
5. **Integraci√≥n Python**: Dise√±ado espec√≠ficamente para el ecosistema Python/ML

### Limitaciones Identificadas

1. **Escalabilidad**: Menos optimizado para millones de vectores
2. **Algoritmos**: Menos opciones de √≠ndices que Milvus
3. **Ecosistema**: Menor integraci√≥n con herramientas empresariales
4. **Consultas Complejas**: Menos expresivo que Weaviate con GraphQL

---

## Conclusiones del Taller

###  Objetivos Cumplidos

-  **Instalaci√≥n exitosa** de ChromaDB en modo servidor
-  **Configuraci√≥n completa** del cliente HTTP
-  **Implementaci√≥n de CRUD** completo para vectores
-  **Verificaci√≥n de operaciones** con evidencias
-  **An√°lisis comparativo** con otras soluciones

###  Observaciones T√©cnicas

1. **ChromaDB es ideal para**:
   - Proyectos de investigaci√≥n y prototipado
   - Aplicaciones Python-first
   - Desarrollos que requieren control total del stack

2. **Diferencias conceptuales clave**:
   - **Colecciones** vs **√çndices** (terminolog√≠a)
   - **Distancia coseno** por defecto vs configuraci√≥n expl√≠cita
   - **Metadatos integrados** vs sistemas separados

###  Caso de Uso Recomendado

ChromaDB es perfecto para **MVPs**, **investigaci√≥n acad√©mica** y **aplicaciones medianas** donde se valora m√°s la simplicidad y control que la escala extrema.

---

**  Archivos del Entregable:**
- `ChromaDB_OperacionesCRUD_Vectoriales.ipynb` - Notebook con implementaci√≥n completa
- `docker-compose.yml` - Configuraci√≥n de infraestructura  
- `chroma_data/` - Datos persistentes de ChromaDB