# Modulo 2 (Extension): Diseno de Base de Datos Vectorial con Batman

## Objetivo
Construir una base vectorial desde cero, justificando decisiones de diseno como lo hariamos en un curso de AI Engineering aplicado.

## Resultado esperado
- Dataset estructurado y chunking reproducible.
- Indexacion vectorial en ChromaDB.
- Recuperacion semantica con metadata util para filtros y trazabilidad.

## Blueprint de diseno (resumen ejecutivo)

1. **Modelado de documentos**: cada comic se conserva con `id`, `personaje`, `arco`, `tema`, `titulo`, `contenido`.
2. **Chunking**: tamano intermedio (800 chars) con overlap (120) para balancear contexto vs precision.
3. **Embeddings**: `text-embedding-3-small` para costo/calidad en produccion educativa.
4. **Indice**: ChromaDB persistente para consultas, inspeccion y evaluacion reproducible.
5. **Observabilidad**: estadisticas de chunks + inspeccion de retrieval para detectar drift semantico.

## Justificacion teorica de las decisiones de diseno

### Chunk size = 800 caracteres

El tamano de chunk es una de las decisiones mas impactantes en el diseno de una base vectorial. Consideremos los trade-offs:

| Chunk size | Ventaja | Desventaja |
|---|---|---|
| **Pequeno** (200-400 chars) | Alta precision: cada chunk es semanticamente coherente | Pierde contexto narrativo; requiere mas chunks para cubrir una idea completa |
| **Medio** (600-1000 chars) | Buen balance: contexto suficiente para respuestas coherentes | Puede mezclar ideas en fronteras de parrafo |
| **Grande** (1500+ chars) | Contexto rico para respuestas complejas | Dilution semantica: el embedding promedia temas heterogeneos, reduce recall |

Elegimos **800 chars** (~160 tokens) porque:
1. Es significativamente menor que el limite del modelo de embedding (`text-embedding-3-small` soporta hasta 8191 tokens ≈ 5000+ chars), lo cual evita truncamiento.
2. Para textos narrativos como comics, 800 chars captura entre 1-2 parrafos completos — suficiente para que el LLM construya una respuesta coherente sin necesitar multiples chunks del mismo pasaje.
3. Empiricamente, chunks de este tamano producen un buen ratio precision/recall en retrieval: lo suficientemente especificos para matchear consultas focalizadas, pero con contexto suficiente para no ser fragmentos incoherentes.

### Chunk overlap = 120 caracteres (15% del chunk_size)

El overlap controla cuanto contenido se repite entre chunks consecutivos. Su funcion es **preservar continuidad semantica** en las fronteras de fragmentacion:

- **Overlap = 0**: riesgo de cortar una idea a la mitad sin que ninguno de los dos chunks la represente completa. Una consulta sobre esa idea no matchearia con ningun chunk.
- **Overlap demasiado alto (>30%)**: genera duplicacion significativa que infla el indice sin beneficio proporcional, aumenta costos de embedding, y puede sesgar el retrieval hacia contenido repetido.
- **15% (~120 chars)**: preserva ~1-2 oraciones de contexto entre chunks. Suficiente para que ideas en fronteras de parrafo aparezcan en al menos un chunk con contexto adecuado.

### Modelo de embedding: `text-embedding-3-small`

OpenAI ofrece dos variantes de `text-embedding-3`:
- `text-embedding-3-small`: 1536 dimensiones, ~5x mas barato que large.
- `text-embedding-3-large`: 3072 dimensiones, mayor capacidad discriminativa.

Para textos narrativos como los de este laboratorio, `small` ofrece calidad de retrieval comparable a `large` a una fraccion del costo. La diferencia se nota mas en dominios altamente tecnicos con vocabulario especializado. En un contexto educativo y de prototipado, `small` es la eleccion correcta.

### Cosine similarity y HNSW en ChromaDB

ChromaDB usa por defecto **cosine similarity** como metrica de distancia en su indice HNSW (Hierarchical Navigable Small World). Implicaciones:
- Los vectores se comparan por **direccion**, no por magnitud. Dos textos sobre el mismo tema tendran vectores con angulo pequeno (alta similaridad) sin importar su longitud.
- HNSW es un grafo de proximidad que permite busqueda aproximada en O(log n), haciendo viable el retrieval en tiempo real incluso con miles de chunks.
- La distancia coseno retornada por ChromaDB esta en rango [0, 2], donde 0 = identico y 2 = opuesto. Valores tipicos para chunks relevantes: 0.2–0.6.

In [None]:
from pathlib import Path
import sys
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

ROOT = Path.cwd()
if str(ROOT) not in sys.path:
    sys.path.append(str(ROOT))

from scripts.common import load_comic_records, embed_documents
from scripts.vector_store_lab import build_index_from_json

DATA_PATH = ROOT / 'data' / 'batman_comics.json'
PERSIST_DIR = ROOT / 'outputs' / 'chroma_batman_design'
PERSIST_DIR.mkdir(parents=True, exist_ok=True)
OUTPUTS_DIR = ROOT / 'outputs'
OUTPUTS_DIR.mkdir(parents=True, exist_ok=True)

print(f'Notebook root: {ROOT}')
print(f'Data path: {DATA_PATH}')

In [None]:
records = load_comic_records(DATA_PATH)
records_df = pd.DataFrame(records)
print(f'Total records: {len(records_df)}')
records_df[['id', 'personaje', 'arco', 'tema']].head(8)

## Discusion tecnica: decisiones de arquitectura

| Componente | Decision | Justificacion aplicada |
|---|---|---|
| Unidad de indexacion | Chunk por fragmento narrativo | Reduce dilution semantica en documentos largos |
| Metadata minima | `personaje`, `arco`, `tema`, `titulo`, `source_id`, `chunk_index` | Permite filtros, auditoria y debugging de retrieval |
| Store | ChromaDB persistente | Simplicidad operativa para laboratorio y prototipos |
| Embeddings | `text-embedding-3-small` | Buen trade-off costo/recall para contenido textual denso |
| Eval inicial | Muestra de queries + distancias | Detecta huecos de cobertura antes del tuning fino |

In [None]:
db, chunks, index_stats, chunk_stats = build_index_from_json(
    json_path=DATA_PATH,
    persist_dir=PERSIST_DIR,
    collection_name='batman_design_lab',
    chunk_size=800,
    chunk_overlap=120,
    embedding_model='text-embedding-3-small',
)

print('Index stats:')
print(index_stats)
print('\nChunk stats:')
print(chunk_stats)

chunks_df = pd.DataFrame([
    {
        'id': chunk['id'],
        'chars': len(chunk['text']),
        'tema': chunk['metadata']['tema'],
        'arco': chunk['metadata']['arco'],
    }
    for chunk in chunks
])
chunks_df.head()

In [None]:
sample_queries = [
    'Como inicia Batman su carrera en Gotham?',
    'Que estrategia usa Bane para derrotar a Batman en Knightfall?',
    'Que rol cumple Batman dentro de la Liga de la Justicia?',
]

rows = []
for query in sample_queries:
    results, provider = db.query(query_text=query, n_results=3, embedding_model='text-embedding-3-small')
    for item in results:
        rows.append({
            'query': query,
            'rank': item['rank'],
            'distance': round(item['distance'], 4),
            'tema': item['metadata'].get('tema'),
            'arco': item['metadata'].get('arco'),
            'snippet': item['text'][:160] + '...',
            'retrieval_provider': provider,
        })

retrieval_df = pd.DataFrame(rows)
retrieval_df

In [None]:
sample_texts = [chunk['text'] for chunk in chunks[:60]]
sample_meta = [chunk['metadata'] for chunk in chunks[:60]]
vectors, embedding_provider = embed_documents(sample_texts, model='text-embedding-3-small')

pca = PCA(n_components=2, random_state=42)
projection = pca.fit_transform(vectors)

proj_df = pd.DataFrame({
    'x': projection[:, 0],
    'y': projection[:, 1],
    'tema': [meta['tema'] for meta in sample_meta],
})

fig, ax = plt.subplots(figsize=(8, 5))
for tema, subset in proj_df.groupby('tema'):
    ax.scatter(subset['x'], subset['y'], label=tema, alpha=0.75)

ax.set_title(f'Proyeccion de embeddings (provider={embedding_provider})')
ax.set_xlabel('PCA-1')
ax.set_ylabel('PCA-2')
ax.grid(alpha=0.3)
ax.legend(loc='best', fontsize=8)

plot_path = OUTPUTS_DIR / 'vector_db_design_projection.png'
fig.tight_layout()
fig.savefig(plot_path, dpi=150)
plt.close(fig)

print(f'Saved: {plot_path}')

## Cierre didactico

### Conceptos clave de esta notebook

- **Chunking no es trivial**: el tamano y overlap de fragmentos afectan directamente la calidad del retrieval. No hay valores universales — dependen del dominio, la longitud de los documentos y el tipo de consultas esperadas. Los valores elegidos (800/120) son un punto de partida razonable que debe validarse empiricamente.
- **Metadata es infraestructura de observabilidad**: campos como `personaje`, `arco`, `tema` y `source_id` no son decorativos — permiten filtrar, auditar y debuggear el comportamiento del retrieval en produccion.
- **El embedding model importa menos de lo que se piensa** (dentro de la misma generacion): para la mayoria de casos de uso con texto en espanol/ingles, `text-embedding-3-small` produce resultados comparables a `large` a una fraccion del costo.
- **La visualizacion PCA de embeddings** es una herramienta de diagnostico, no de evaluacion. Si los clusters tematicos son visibles en 2D, el modelo de embedding esta capturando estructura semantica util. Si no, puede indicar que los chunks son demasiado homogeneos o el chunking es demasiado agresivo.

### Conexion con la siguiente notebook

Con la base vectorial operativa y auditada, en la siguiente notebook la usamos para comparar **Vanilla RAG** vs **Agentic RAG** con metricas cuantitativas (groundedness, latencia) y graficas comparativas. La pregunta central sera: *cuando justifica la complejidad adicional de un pipeline agentico?*