# An√°lisis Profundo del Proyecto CUVS: Introducci√≥n y Uso B√°sico

Este notebook proporciona una introducci√≥n profunda al proyecto CUVS de RAPIDS, una biblioteca para b√∫squeda de vectores y clustering acelerada por GPU. Cubriremos instalaci√≥n, uso b√°sico y pruebas de utilidad y rendimiento.

## 1. Instalar RAPIDS y CUVS

CUVS es parte del ecosistema RAPIDS, que acelera el an√°lisis de datos con GPU NVIDIA.

### Requisitos
- GPU NVIDIA con CUDA 11.8+ (recomendado CUDA 12+)
- Python 3.8+
- Sistema operativo: Linux, Windows, macOS (con limitaciones)

### Instalaci√≥n en Google Colab
En Colab, selecciona Runtime > Change runtime type > GPU (T4, V100, A100, etc.)

```bash
# Para CUDA 12 (recomendado)
!pip install cuvs-cu12 --extra-index-url=https://pypi.nvidia.com

# Para CUDA 11
# !pip install cuvs-cu11 --extra-index-url=https://pypi.nvidia.com
```

### Instalaci√≥n Local
```bash
# conda (recomendado)
conda install -c rapidsai -c conda-forge cuvs

# pip
pip install cuvs-cu12 --extra-index-url=https://pypi.nvidia.com
```

### Soluci√≥n de Problemas de Importaci√≥n
Si encuentras errores como `libcuvs_c.so: cannot open shared object file`, sigue estos pasos:

1. **Reinicia el runtime**: Runtime > Restart runtime
2. **Re-ejecuta la instalaci√≥n**: Vuelve a ejecutar la celda de instalaci√≥n
3. **Ejecuta el diagn√≥stico**: Usa la celda "DIAGN√ìSTICO AVANZADO" para identificar el problema
4. **Configuraci√≥n manual**: Si es necesario, configura `LD_LIBRARY_PATH`

### Verificaci√≥n
Despu√©s de la instalaci√≥n, verifica que CUVS est√© disponible:

In [None]:
# Instalar RAPIDS y CUVS
# Para CUDA 12 (com√∫n en Colab)
!pip install cuvs-cu12 --extra-index-url=https://pypi.nvidia.com

# O para CUDA 11
# !pip install cuvs-cu11 --extra-index-url=https://pypi.nvidia.com

# SOLUCI√ìN PARA PROBLEMAS DE IMPORTACI√ìN
# Si hay error "libcuvs_c.so: cannot open shared object file", ejecutar:
import os

# Configurar LD_LIBRARY_PATH para incluir las bibliotecas de CUVS
cuvs_lib_path = '/usr/local/lib/python3.12/dist-packages'
if cuvs_lib_path not in os.environ.get('LD_LIBRARY_PATH', ''):
    os.environ['LD_LIBRARY_PATH'] = cuvs_lib_path + ':' + os.environ.get('LD_LIBRARY_PATH', '')

# Verificar que las bibliotecas est√©n accesibles
!ldconfig -p | grep libcuvs || echo "Buscando bibliotecas..."
!find /usr/local/lib -name "*libcuvs*" 2>/dev/null || echo "Bibliotecas no encontradas en /usr/local/lib"

# Verificar instalaci√≥n
try:
    import cuvs
    print("‚úÖ CUVS importado correctamente")
    print("CUVS versi√≥n:", cuvs.__version__)
except ImportError as e:
    print("‚ùå Error de importaci√≥n:", e)
    print("üí° Soluci√≥n: Reinicia el runtime (Runtime > Restart runtime) y ejecuta esta celda nuevamente")
    print("üí° Si persiste, ejecuta: !export LD_LIBRARY_PATH=/usr/local/lib:$LD_LIBRARY_PATH")

# Verificar GPU
try:
    import cupy as cp
    print("GPU disponible:", cp.cuda.runtime.getDeviceCount() > 0)
    if cp.cuda.runtime.getDeviceCount() > 0:
        gpu_name = cp.cuda.runtime.getDeviceProperties(0)['name'].decode()
        print("GPU:", gpu_name)
        if 'T4' in gpu_name or 'V100' in gpu_name or 'A100' in gpu_name:
            print("‚úÖ GPU compatible con CUVS")
        else:
            print("‚ö†Ô∏è GPU detectada, pero verifica compatibilidad CUDA")
    else:
        print("‚ùå No se detect√≥ GPU. Aseg√∫rate de seleccionar Runtime > Change runtime type > GPU")
except Exception as e:
    print("Error al verificar GPU:", e)

# Troubleshooting adicional:
# - Si hay errores de CUDA, verifica la versi√≥n compatible
# - En macOS, CUVS tiene limitaciones; usa CPU alternatives como FAISS
# - Si el problema persiste, intenta: !pip install --force-reinstall cuvs-cu12

In [None]:
# DIAGN√ìSTICO AVANZADO (ejecutar solo si hay problemas de importaci√≥n)
print("=== DIAGN√ìSTICO DE CUVS ===")

# Verificar instalaci√≥n de pip
!pip show cuvs-cu12

# Verificar bibliotecas del sistema
print("\n=== B√öSQUEDA DE BIBLIOTECAS ===")
!find /usr/local/lib -name "*libcuvs*" 2>/dev/null || echo "No se encontraron bibliotecas libcuvs"
!find /usr/lib -name "*libcuvs*" 2>/dev/null || echo "No se encontraron bibliotecas libcuvs en /usr/lib"

# Verificar variables de entorno
print("\n=== VARIABLES DE ENTORNO ===")
import os
print("LD_LIBRARY_PATH:", os.environ.get('LD_LIBRARY_PATH', 'No definido'))
print("PATH:", os.environ.get('PATH', 'No definido')[:100] + "...")

# Verificar CUDA
print("\n=== VERIFICACI√ìN CUDA ===")
!nvidia-smi --query-gpu=name,memory.total,memory.free --format=csv,noheader,nounits || echo "nvidia-smi no disponible"
!nvcc --version 2>/dev/null | head -5 || echo "nvcc no disponible"

# Verificar Python path
print("\n=== PYTHON PATH ===")
import sys
for path in sys.path[:3]:
    print(path)

print("\n=== INTENTO DE IMPORTACI√ìN ===")
try:
    import cuvs
    print("‚úÖ Importaci√≥n exitosa")
except Exception as e:
    print("‚ùå Error:", e)
    print("üí° Ejecuta estas soluciones en orden:")
    print("   1. Runtime > Restart runtime")
    print("   2. Re-ejecutar celda de instalaci√≥n")
    print("   3. Si persiste: !apt-get update && apt-get install -y libgomp1")

## 2. Importar Librer√≠as Requeridas

Importamos las librer√≠as necesarias. CUVS usa CuPy para arrays GPU y NumPy para CPU.

### Librer√≠as Principales
- `cuvs`: API principal de CUVS
- `cupy`: Arrays GPU (similar a NumPy)
- `numpy`: Arrays CPU
- `matplotlib`: Visualizaci√≥n de resultados

In [None]:
# Importar librer√≠as con manejo de errores
try:
    import numpy as np
    import cupy as cp
    from cuvs.common import Resources
    from cuvs.neighbors import ivf_flat
    import time
    import matplotlib.pyplot as plt
    print("‚úÖ Todas las librer√≠as importadas correctamente")
except ImportError as e:
    print("‚ùå Error de importaci√≥n:", e)
    print("üí° Soluciones:")
    print("   1. Reinicia el runtime: Runtime > Restart runtime")
    print("   2. Re-ejecuta la celda de instalaci√≥n arriba")
    print("   3. Si persiste, ejecuta en una celda nueva:")
    print("      !export LD_LIBRARY_PATH=/usr/local/lib:$LD_LIBRARY_PATH")
    print("      !ldconfig")
    raise e

## 3. Cargar y Preparar Dataset

CUVS trabaja con vectores de punto flotante. Los datos deben estar en formato NumPy o CuPy arrays.

### Formatos Soportados
- **Float32/Float16**: Recomendado para precisi√≥n y velocidad
- **Dimensiones**: T√≠picamente 128-1024 para embeddings
- **Normalizaci√≥n**: Importante para m√©tricas de similitud coseno

### Fuentes de Datos
- Embeddings de modelos como BERT, CLIP, Sentence Transformers
- Datos de ANN benchmarks (SIFT, GloVe)
- Vectores personalizados de tu aplicaci√≥n

En este ejemplo usamos datos sint√©ticos similares a embeddings de texto/im√°genes.

In [None]:
# Generar datos sint√©ticos: 10000 vectores de 128 dimensiones
np.random.seed(42)
n_samples = 10000
dim = 128
dataset = np.random.randn(n_samples, dim).astype(np.float32)

# Normalizar para similitud coseno
dataset = dataset / np.linalg.norm(dataset, axis=1, keepdims=True)

# Queries: 100 vectores aleatorios
n_queries = 100
queries = np.random.randn(n_queries, dim).astype(np.float32)
queries = queries / np.linalg.norm(queries, axis=1, keepdims=True)

print(f"Dataset shape: {dataset.shape}")
print(f"Queries shape: {queries.shape}")

## 4. Construir √çndice CUVS

Los √≠ndices CUVS permiten b√∫squeda r√°pida aproximada. IVF-Flat divide el espacio en clusters (listas) para b√∫squeda eficiente.

### Par√°metros Clave
- `n_lists`: N√∫mero de clusters (m√°s = mejor recall, pero m√°s lento)
- `metric`: Distancia ("euclidean", "cosine", "inner_product")
- `add_data_on_build`: Construir y agregar datos en un paso

### Cu√°ndo Usar Cada Algoritmo
- **IVF-Flat**: Datasets medianos (<1M vectores), balance velocidad/precisi√≥n
- **IVF-PQ**: Datasets grandes, optimizaci√≥n de memoria
- **CAGRA**: B√∫squeda en tiempo real, m√°xima velocidad

In [None]:
resources = Resources()

# Par√°metros de construcci√≥n
build_params = ivf_flat.IndexParams(
    n_lists=1024,  # N√∫mero de clusters
    metric="cosine",  # M√©trica de distancia
    add_data_on_build=True
)

# Construir √≠ndice
start_time = time.time()
index = ivf_flat.build(build_params, cp.asarray(dataset), resources=resources)
resources.sync()
build_time = time.time() - start_time

print(f"√çndice construido en {build_time:.2f} segundos")
print(f"√çndice: {index}")

## 5. Realizar B√∫squeda de Vectores

La b√∫squeda encuentra los k vecinos m√°s cercanos para cada query vector.

### Par√°metros de B√∫squeda
- `n_probes`: Clusters a buscar (m√°s = mejor recall, m√°s lento)
- `k`: N√∫mero de vecinos a retornar

### Rendimiento Esperado
- **IVF-Flat**: 1000-10000 QPS en GPU moderna
- **Latencia**: <1ms para k=10 en datasets medianos
- **Escalabilidad**: Lineal con tama√±o del dataset

In [None]:
# Par√°metros de b√∫squeda
search_params = ivf_flat.SearchParams(n_probes=10)  # N√∫mero de clusters a buscar
k = 10  # Top-k vecinos

# B√∫squeda
start_time = time.time()
distances, neighbors = ivf_flat.search(
    search_params, 
    index, 
    cp.asarray(queries), 
    k=k, 
    resources=resources
)
resources.sync()
search_time = time.time() - start_time

print(f"B√∫squeda completada en {search_time:.4f} segundos")
print(f"Tiempo por query: {search_time / n_queries * 1000:.2f} ms")
print(f"Distances shape: {distances.shape}")
print(f"Neighbors shape: {neighbors.shape}")

## 6. Evaluar Precisi√≥n de B√∫squeda

Medimos qu√© tan buenos son los resultados aproximados vs exactos.

### M√©tricas Principales
- **Recall@k**: Fracci√≥n de resultados correctos en top-k
- **Precision@k**: Exactitud en top-k
- **Mean Reciprocal Rank (MRR)**: Posici√≥n promedio del primer resultado correcto

### Interpretaci√≥n
- Recall > 0.9: Excelente para la mayor√≠a de aplicaciones
- Recall > 0.8: Bueno para b√∫squeda general
- Recall < 0.7: Puede requerir refinamiento o algoritmo diferente

In [None]:
# Calcular distancias exactas usando brute force
from sklearn.metrics.pairwise import cosine_distances
exact_distances = cosine_distances(queries, dataset)
exact_neighbors = np.argsort(exact_distances, axis=1)[:, :k]

# Calcular recall
def recall_at_k(pred, true, k):
    recall = 0
    for i in range(len(pred)):
        recall += len(set(pred[i]) & set(true[i])) / k
    return recall / len(pred)

approx_neighbors = cp.asnumpy(neighbors)
recall = recall_at_k(approx_neighbors, exact_neighbors, k)
print(f"Recall@{k}: {recall:.4f}")

## 7. Benchmark de M√©tricas de Rendimiento

Medimos velocidad y eficiencia del sistema.

### M√©tricas de Rendimiento
- **QPS (Queries Per Second)**: Throughput del sistema
- **Latencia**: Tiempo por query individual
- **Uso de Memoria**: RAM/GPU utilizada
- **Tiempo de Construcci√≥n**: Costo inicial del √≠ndice

### Factores que Afectan el Rendimiento
- **Tama√±o del Dataset**: M√°s grande = m√°s lento (pero escalable)
- **Dimensionalidad**: M√°s dimensiones = m√°s costoso
- **Par√°metros del √çndice**: Trade-off recall vs velocidad
- **Hardware**: GPU m√°s nueva/mejor = mejor rendimiento

In [None]:
print(f"Tiempo de construcci√≥n del √≠ndice: {build_time:.2f} s")
print(f"Tiempo total de b√∫squeda: {search_time:.4f} s")
print(f"Queries por segundo (QPS): {n_queries / search_time:.2f}")

# Uso de memoria (aproximado)
import psutil
process = psutil.Process()
mem_usage = process.memory_info().rss / (1024 ** 3)  # GB
print(f"Uso de memoria aproximado: {mem_usage:.2f} GB")

## 8. Comparar con Alternativas Basadas en CPU

Comparamos CUVS GPU con FAISS CPU para mostrar la aceleraci√≥n.

### Alternativas CPU
- **FAISS**: Librer√≠a ANN de Facebook, excelente baseline
- **Annoy**: Basado en √°rboles, simple pero limitado
- **HNSW**: Algoritmo gr√°fico, buena precisi√≥n pero lento en construcci√≥n

### Cu√°ndo Usar GPU vs CPU
- **GPU (CUVS)**: Datasets >100K vectores, b√∫squeda en tiempo real, alta throughput
- **CPU (FAISS)**: Desarrollo local, datasets peque√±os, sin GPU disponible

### Aceleraci√≥n Esperada
- **10-100x** m√°s r√°pido en b√∫squeda
- **5-20x** m√°s r√°pido en construcci√≥n de √≠ndices
- **Mejor escalabilidad** para datasets grandes

In [None]:
# Instalar FAISS si no est√°
!pip install faiss-cpu

import faiss

# Construir √≠ndice FAISS
index_faiss = faiss.IndexFlatIP(dim)  # Producto interno para coseno
index_faiss.add(dataset)

# B√∫squeda FAISS
start_time_faiss = time.time()
distances_faiss, neighbors_faiss = index_faiss.search(queries, k)
search_time_faiss = time.time() - start_time_faiss

print(f"FAISS b√∫squeda tiempo: {search_time_faiss:.4f} s")
print(f"CUVS b√∫squeda tiempo: {search_time:.4f} s")
print(f"Aceleraci√≥n: {search_time_faiss / search_time:.2f}x")

# Recall FAISS (exacto)
recall_faiss = recall_at_k(neighbors_faiss, exact_neighbors, k)
print(f"Recall FAISS: {recall_faiss:.4f}")
print(f"Recall CUVS: {recall:.4f}")

## 9. Optimizar Par√°metros del √çndice

El rendimiento depende de par√°metros bien ajustados.

### Gu√≠a de Optimizaci√≥n
- **n_lists**: sqrt(n_samples) como punto de partida
- **n_probes**: 1-10% de n_lists para balance velocidad/precisi√≥n
- **k**: 10-100 t√≠pico para aplicaciones de b√∫squeda

### Estrategia de Tuning
1. Fijar n_lists basado en tama√±o del dataset
2. Variar n_probes para encontrar trade-off √≥ptimo
3. Medir recall y QPS para tu caso de uso espec√≠fico
4. Considerar refinamiento si recall es insuficiente

In [None]:
# Experimentar con n_probes
n_probes_list = [1, 5, 10, 20, 50]
recalls = []
times = []

for n_probes in n_probes_list:
    search_params = ivf_flat.SearchParams(n_probes=n_probes)
    start = time.time()
    dist, neigh = ivf_flat.search(search_params, index, cp.asarray(queries), k=k, resources=resources)
    resources.sync()
    t = time.time() - start
    r = recall_at_k(cp.asnumpy(neigh), exact_neighbors, k)
    recalls.append(r)
    times.append(t)

plt.figure(figsize=(10, 5))
plt.subplot(1, 2, 1)
plt.plot(n_probes_list, recalls, marker='o')
plt.xlabel('n_probes')
plt.ylabel('Recall@10')
plt.title('Recall vs n_probes')

plt.subplot(1, 2, 2)
plt.plot(n_probes_list, times, marker='o')
plt.xlabel('n_probes')
plt.ylabel('Tiempo de b√∫squeda (s)')
plt.title('Tiempo vs n_probes')
plt.show()

## 10. Manejar Datasets a Gran Escala

CUVS est√° dise√±ado para datasets masivos.

### Estrategias de Escalado
- **Procesamiento por lotes**: Construir √≠ndices en chunks
- **Multi-GPU**: Distribuir carga entre m√∫ltiples GPUs
- **Compresi√≥n**: Usar IVF-PQ para reducir memoria
- **Optimizaci√≥n de memoria**: RMM pool allocator

### L√≠mites Pr√°cticos
- **Millones de vectores**: F√°cil con configuraci√≥n adecuada
- **Miles de millones**: Posible con multi-GPU y optimizaciones
- **Memoria**: Monitorear uso GPU/CPU, ajustar par√°metros seg√∫n necesidad

In [None]:
# Para datasets grandes, procesar en lotes
large_dataset = np.random.randn(50000, dim).astype(np.float32)
large_dataset = large_dataset / np.linalg.norm(large_dataset, axis=1, keepdims=True)

batch_size = 10000
for i in range(0, len(large_dataset), batch_size):
    batch = large_dataset[i:i+batch_size]
    # Extender √≠ndice con batch
    ivf_flat.extend(index, cp.asarray(batch), cp.arange(i, i+len(batch), dtype=cp.int64))
    resources.sync()

print("√çndice extendido con datos adicionales")

# B√∫squeda en √≠ndice grande
distances_large, neighbors_large = ivf_flat.search(
    search_params, index, cp.asarray(queries), k=k, resources=resources
)
resources.sync()
print(f"B√∫squeda en dataset grande completada")