# Ejercicio 7: Bases de Datos Vectoriales

## Objetivo de la práctica

Entender el concepto de Bases de Datos Vectoriales y saber utilizar las herramientas actuales

## Parte 0: Carga del Corpus

Vamos a utilizar la API de Kaggle para acceder al dataset _Wikipedia Text Corpus for NLP and LLM Projects_

El corpus está disponible desde este [link](https://www.kaggle.com/datasets/gzdekzlkaya/wikipedia-text-corpus-for-nlp-and-llm-projects?utm_source=chatgpt.com)

### Actividad

1. Carga el corpus


In [2]:
import pandas as pd
import kagglehub
from kagglehub import KaggleDatasetAdapter

In [4]:
# Set the path to the file you'd like to load
file_path = r"C:\Users\DELL\Downloads\Septimo2025\RI\RI_C\Unidades\Unidad 6\wikipedia_text_corpus.csv"

# Load the latest version
""" df = kagglehub.dataset_load(
  KaggleDatasetAdapter.PANDAS,
  "gzdekzlkaya/wikipedia-text-corpus-for-nlp-and-llm-projects",
  file_path,
) """
df = pd.read_csv(file_path)
df.head()

Unnamed: 0.1,Unnamed: 0,text
0,1,Anovo\n\nAnovo (formerly A Novo) is a computer...
1,2,Battery indicator\n\nA battery indicator (also...
2,3,"Bob Pease\n\nRobert Allen Pease (August 22, 19..."
3,4,CAVNET\n\nCAVNET was a secure military forum w...
4,5,CLidar\n\nThe CLidar is a scientific instrumen...


## Parte 1: Generación de Embeddings

Vamos a utilizar E5 como modelo de embeddings.

La documentación de E5 está disponible desde este [link](https://huggingface.co/intfloat/e5-base-v2)

### Actividad

1. Normalizar el corpus
2. Definir una función `chunk_text`, y dividir los textos en _chunks_.
3. Generar embeddings por cada _chunk_

In [5]:
import pandas as pd
import numpy as np
from tqdm.auto import tqdm
import re

df = df.dropna(subset=["text"]).reset_index(drop=True)

# Limpieza básica
def normalize_text(s: str) -> str:
    s = re.sub(r"\s+", " ", s).strip()
    return s

df["text_norm"] = df["text"].astype(str).map(normalize_text)

df.head()

Unnamed: 0.1,Unnamed: 0,text,text_norm
0,1,Anovo\n\nAnovo (formerly A Novo) is a computer...,Anovo Anovo (formerly A Novo) is a computer se...
1,2,Battery indicator\n\nA battery indicator (also...,Battery indicator A battery indicator (also kn...
2,3,"Bob Pease\n\nRobert Allen Pease (August 22, 19...","Bob Pease Robert Allen Pease (August 22, 1940Â..."
3,4,CAVNET\n\nCAVNET was a secure military forum w...,CAVNET CAVNET was a secure military forum whic...
4,5,CLidar\n\nThe CLidar is a scientific instrumen...,CLidar The CLidar is a scientific instrument u...


In [6]:
def chunk_text(text: str, max_chars: int = 800, overlap: int = 100):
    """
    Chunking por caracteres.
    max_chars ~ 600-1000 suele funcionar bien.
    overlap ayuda a no cortar ideas a la mitad.
    """
    chunks = []
    start = 0
    n = len(text)
    while start < n:
        end = min(start + max_chars, n)
        chunk = text[start:end]
        chunk = chunk.strip()
        if len(chunk) > 0:
            chunks.append(chunk)
        if end == n:
            break
        start = max(0, end - overlap)
    return chunks

records = []
for i, row in df.iterrows():
    chunks = chunk_text(row["text_norm"], max_chars=800, overlap=100)
    for j, ch in enumerate(chunks):
        records.append({
            "doc_id": int(i),
            "chunk_id": j,
            "text": ch
        })

chunks_df = pd.DataFrame(records)
chunks_df.head(), len(chunks_df)

(   doc_id  chunk_id                                               text
 0       0         0  Anovo Anovo (formerly A Novo) is a computer se...
 1       1         0  Battery indicator A battery indicator (also kn...
 2       1         1  ad battery when in reality it indicates a prob...
 3       1         2  s that an internal standby battery needs repla...
 4       1         3  increase; in many cases the EMF remains more o...,
 79104)

In [7]:
from sentence_transformers import SentenceTransformer

MODEL_NAME = "intfloat/e5-base-v2"   # recomendado para retrieval
#model = SentenceTransformer(MODEL_NAME)
model = SentenceTransformer(MODEL_NAME, device="cuda:0")
# Textos a indexar (pasajes)
passages = ["passage: " + t for t in chunks_df["text"].tolist()]

In [8]:
# Embeddings (N x D)
# Se debe usar normalize_embeddings=True para similitud coseno
embeddings = model.encode(
    passages,
    batch_size=16,
    show_progress_bar=True,
    convert_to_numpy=True,
    normalize_embeddings=True
).astype("float32")

Batches:   0%|          | 0/4944 [00:00<?, ?it/s]

In [9]:
print(embeddings.shape, embeddings.dtype)

(79104, 768) float32


In [10]:
def embed_query(query: str) -> np.ndarray:
    q = "query: " + query
    vec = model.encode(
        [q],
        convert_to_numpy=True,
        normalize_embeddings=True
    ).astype("float32")
    return vec

query_text = "Battery measuring"

query_vec = embed_query(query_text)
query_vec.shape

(1, 768)

## Parte 2: FAISS

FAISS es una librería para búsqueda por similitud eficiente y clustering de vectores densos.

La documentación de FAISS está disponible en este [link](https://faiss.ai/index.html)

### Actividad

1. Crea un índice en FAISS
2. Carga los embeddings
3. Realiza una búsqueda a partir de una _query_

In [11]:
# código base para FAISS
import faiss
import numpy as np

# Asumiendo `embeddings` en un array NxD
index = faiss.IndexFlatL2(embeddings.shape[1])
index.add(embeddings)
print(f"Índice FAISS creado con {index.ntotal} vectores")
k=10
D, I = index.search(query_vec, k)


for i in range(k):
    doc_idx = I[0][i]  # El índice que encontró FAISS
    dist = D[0][i]     # La distancia del vector
    
    # Extraemos la información del DataFrame usando el índice
    doc_id = chunks_df.iloc[doc_idx]['doc_id']
    chunk_id = chunks_df.iloc[doc_idx]['chunk_id']
    texto = chunks_df.iloc[doc_idx]['text']
    
    print(f"\n{i+1}. Doc {doc_id}, Chunk {chunk_id} (Distancia L2: {dist:.4f})")
    print(f"{texto[:300]}...")

Índice FAISS creado con 79104 vectores

1. Doc 1391, Chunk 0 (Distancia L2: 0.2593)
Battery tester A battery tester is an electronic device intended for testing the state of an electric battery, going from a simple device for testing the charge actually present in the cells and/or its voltage output, to a more comprehensive testing of the battery's condition, namely its capacity fo...

2. Doc 1, Chunk 0 (Distancia L2: 0.2764)
Battery indicator A battery indicator (also known as a battery gauge) is a device which gives information about a battery. This will usually be a visual indication of the battery's state of charge. It is particularly important in the case of a battery electric vehicle. Some automobiles are fitted wi...

3. Doc 1391, Chunk 1 (Distancia L2: 0.3198)
ing procedure, according to the type of battery being tested, such as the â€œ421â€ test for lead-acid vehicle batteries. Their common principle is based on the empirical fact that after having applied a given current for

## Parte 3 — Vector DB #1: Qdrant (búsqueda vectorial + metadata)

### Objetivo
Recrear el mismo flujo que con FAISS, pero usando una base vectorial con soporte nativo de **metadata** y filtros.

### Qué debes implementar
1. Levantar / conectar con una instancia de Qdrant.
2. Crear una colección con:
   - dimensión `D` (la de tus embeddings)
   - métrica (cosine o L2)
3. Insertar:
   - `id`
   - `embedding`
   - `payload` (metadata: texto, título, etiquetas, etc.)
4. Consultar Top-k por similitud:
   - `query_embedding`
   - `k`

### Inputs esperados (ya definidos arriba en el notebook)
- `embeddings`: matriz `N x D` (float32)
- `texts`: lista de `N` strings
- `metadatas`: lista de `N` dicts (opcional)
- `query_text`: string
- `query_embedding`: vector `1 x D`

### Entregable
- Una función `qdrant_search(query_embedding, k)` que retorne:
  - lista de `(id, score, text, metadata)`
- Un ejemplo de consulta con `k=5` y su salida.

### Preguntas
- ¿La métrica usada fue cosine o L2? ¿Por qué?
- ¿Qué tan fácil fue filtrar por metadata en comparación con FAISS?
- ¿Qué pasa con el tiempo de respuesta cuando aumentas `k`?


In [14]:
from qdrant_client import QdrantClient
from qdrant_client.models import Distance, VectorParams, PointStruct

#Conexión instancia  Qdrant
client = QdrantClient(":memory:")

collection_name = "wikipedia_chunks"

# Creamos la colección
client.create_collection(
    collection_name=collection_name,
    vectors_config=VectorParams(
        size=embeddings.shape[1],  # Dimensión de embeddings
        distance=Distance.COSINE   # Cosine porque embeddings están normalizados
    )
)


True

In [15]:
#Embeddings + metadata
points = []
for idx, row in chunks_df.iterrows():
    point = PointStruct(
        id=idx,
        vector=embeddings[idx].tolist(),
        payload={
            "text": row["text"],
            "doc_id": int(row["doc_id"]),
            "chunk_id": int(row["chunk_id"])
        }
    )
    points.append(point)
    
batch_size = 100
for i in range(0, len(points), batch_size):
    batch = points[i:i+batch_size]
    client.upsert(
        collection_name=collection_name,
        points=batch
    )

print(f"Insertados {len(points)} documentos en Qdrant")

  client.upsert(


Insertados 79104 documentos en Qdrant


In [16]:
def busqueda_qdrant(query_text, k=10):
    """
    Busca los k documentos más similares usando Qdrant
    """
    # Obtener embedding de la query y aplanar
    query_vec = embed_query(query_text).flatten()
    
    # Búsqueda en Qdrant usando query_points
    response = client.query_points(
        collection_name=collection_name,
        query=query_vec.tolist(),
        limit=k
    )
    
    # Los resultados están en response.points
    results = response.points
    
    # Formatear resultados
    output = []
    for i, hit in enumerate(results):
        output.append({
            'rank': i + 1,
            'id': hit.id,
            'score': hit.score,
            'doc_id': hit.payload.get('doc_id'),
            'chunk_id': hit.payload.get('chunk_id'),
            'text': hit.payload.get('text', "")
        })
    
    return output

In [17]:
query = "Battery measuring"
results = busqueda_qdrant(query, k=10)

print(f"\n{'=' * 80}")
print(f"Query: '{query}'")
print(f"Top {len(results)} resultados con Qdrant")
print(f"{'=' * 80}\n")

for r in results:
    print(f"{r['rank']}. Doc {r['doc_id']}, Chunk {r['chunk_id']} "
          f"(Score: {r['score']:.4f})")
    print(f"  {r['text'][:300]}...")
    print()


Query: 'Battery measuring'
Top 10 resultados con Qdrant

1. Doc 1391, Chunk 0 (Score: 0.8703)
  Battery tester A battery tester is an electronic device intended for testing the state of an electric battery, going from a simple device for testing the charge actually present in the cells and/or its voltage output, to a more comprehensive testing of the battery's condition, namely its capacity fo...

2. Doc 1, Chunk 0 (Score: 0.8618)
  Battery indicator A battery indicator (also known as a battery gauge) is a device which gives information about a battery. This will usually be a visual indication of the battery's state of charge. It is particularly important in the case of a battery electric vehicle. Some automobiles are fitted wi...

3. Doc 1391, Chunk 1 (Score: 0.8401)
  ing procedure, according to the type of battery being tested, such as the â€œ421â€ test for lead-acid vehicle batteries. Their common principle is based on the empirical fact that after having applied a given current 

### Preguntas
- ¿La métrica usada fue cosine o L2? ¿Por qué?


Se usó Cosine (Distance.COSINE) porque los embeddings están normalizados es decir todos tienen la misma magnitud, esto hace que la comparación se base únicamente en la dirección de los vectores.

- ¿Qué tan fácil fue filtrar por metadata en comparación con FAISS?


Filtrar por metadata en Qdrant fue mucho más sencillo que en FAISS dado que tiene funciones integradas que permiten filtrar los resultados de búsqueda. En cambio en FAISS no tiene esa capacidad porque solo se enfoca en los vectores.

- ¿Qué pasa con el tiempo de respuesta cuando aumentas `k`?

 El tiempo de búsqueda aumenta linealmente con k, si se pide cantidades enormes como 1000 resultados o más ahí sí empieza a tardar más.

## Parte 4 — Vector DB #2: Milvus (indexación ANN y escalabilidad)

### Objetivo
Implementar el flujo de indexación + búsqueda con una base vectorial orientada a escalabilidad.

### Qué debes implementar
1. Conectar a Milvus.
2. Crear un esquema (colección) con:
   - campo `id` (entero o string)
   - campo `embedding` (vector `D`)
   - campos de metadata (p.ej., `category`, `source`, `title`)
3. Insertar `N` embeddings.
4. Crear/seleccionar un índice ANN (ej. HNSW o IVF).
5. Ejecutar consultas Top-k y recuperar textos asociados.

### Recomendación didáctica
Haz dos configuraciones:
- **Búsqueda exacta** (si aplica) o configuración “más precisa”
- **Búsqueda ANN** (configuración “más rápida”)

Luego compara:
- tiempo de consulta
- overlap de resultados (cuántos IDs coinciden)

### Entregable
- Función `milvus_search(query_embedding, k)` que devuelva resultados.
- Un mini experimento: `k=5` y `k=20` (tiempos y resultados).

### Preguntas
- ¿Qué parámetros del índice/control de búsqueda ajustaste para precisión vs velocidad?
- ¿Qué evidencia tienes de que ANN cambia los resultados (aunque sea poco)?


In [18]:
from pymilvus import connections, Collection, FieldSchema, CollectionSchema, DataType, utility

# Conexión a Milvus 
connections.connect("default", host="localhost", port="19530")
print("Conectado a Milvus correctamente")

collection_name = "wikipedia_chunks"

# Eliminar colección si existe
if utility.has_collection(collection_name):
    utility.drop_collection(collection_name)

embedding_dim = 768  # Dimensión de e5-base-v2


fields = [
    FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=False),
    FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=embedding_dim),
    FieldSchema(name="text", dtype=DataType.VARCHAR, max_length=65535),
    FieldSchema(name="doc_id", dtype=DataType.INT64),
    FieldSchema(name="chunk_id", dtype=DataType.INT64)
]

schema = CollectionSchema(fields=fields, description="Wikipedia chunks")
collection = Collection(name=collection_name, schema=schema)

print(f"Colección '{collection_name}' creada con éxito")

Conectado a Milvus correctamente
Colección 'wikipedia_chunks' creada con éxito


In [20]:
ids = list(range(len(chunks_df)))
texts = chunks_df["text"].tolist()
doc_ids = chunks_df["doc_id"].tolist()
chunk_ids = chunks_df["chunk_id"].tolist()

# Embeddings a lista 
emb_list = embeddings.tolist()


BATCH_SIZE = 500  # ajusta según RAM / CPU

for i in range(0, len(ids), BATCH_SIZE):
    batch_ids = ids[i:i + BATCH_SIZE]
    batch_emb = emb_list[i:i + BATCH_SIZE]
    batch_texts = texts[i:i + BATCH_SIZE]
    batch_doc_ids = doc_ids[i:i + BATCH_SIZE]
    batch_chunk_ids = chunk_ids[i:i + BATCH_SIZE]

    entities = [
        batch_ids,
        batch_emb,
        batch_texts,
        batch_doc_ids,
        batch_chunk_ids
    ]

    collection.insert(entities)

collection.flush()

print(f"Insertados {len(ids)} documentos en Milvus en lotes de {BATCH_SIZE}")


Insertados 79104 documentos en Milvus en lotes de 500


In [21]:
#Creación indice 
index_params_precise = {
    "metric_type": "COSINE",
    "index_type": "HNSW",
    "params": {
        "M": 32,              
        "efConstruction": 400  
    }
}

collection.create_index(field_name="embedding", index_params=index_params_precise)
collection.load()

In [22]:
#Búsqueda PRECISA
search_params_precise = {
    "metric_type": "COSINE",
    "params": {"ef": 200}  # Búsqueda más exhaustiva
}

#Búsqueda RÁPIDA
search_params_fast = {
    "metric_type": "COSINE",
    "params": {"ef": 50}  # Búsqueda más rápida pero menos precisa
}

In [23]:
# Función de búsqueda
def busqueda_milvus(query_text, k=5, precise=True):
    """Busca los k documentos más similares usando Milvus"""
    query_vec = embed_query(query_text)
    
    search_params = search_params_precise if precise else search_params_fast
    
    results = collection.search(
        data=query_vec.tolist(),
        anns_field="embedding",
        param=search_params,
        limit=k,
        output_fields=["text", "doc_id", "chunk_id"]
    )
    
    output = []
    for i, hit in enumerate(results[0]):
        output.append({
            'rank': i + 1,
            'id': hit.id,
            'distance': hit.distance,
            'doc_id': hit.entity.get('doc_id'),
            'chunk_id': hit.entity.get('chunk_id'),
            'text': hit.entity.get('text')
        })
    
    return output

In [24]:
print("\nCOMPARACIÓN CONFIGURACIONES\n")

query = "Battery measuring"

# Configuración precisa
import time
start = time.time()
results_precise = busqueda_milvus(query, k=5, precise=True)
time_precise = time.time() - start

# Configuración rápida
start = time.time()
results_fast = busqueda_milvus(query, k=5, precise=False)
time_fast = time.time() - start

print(f"Tiempo búsqueda precisa: {time_precise:.4f}s")
print(f"Tiempo búsqueda rápida: {time_fast:.4f}s")
print(f"Speedup: {time_precise/time_fast:.2f}x")

# Overlap de resultados
ids_precise = [r['id'] for r in results_precise]
ids_fast = [r['id'] for r in results_fast]
overlap = len(set(ids_precise) & set(ids_fast))

print(f"\nOverlap de IDs: {overlap}/5 ({overlap/5*100:.0f}%)")

# Mostrar resultados
print("\nRESULTADOS CONFIGURACIÓN PRECISA")
for r in results_precise:
    print(f"{r['rank']}. Doc {r['doc_id']}, Chunk {r['chunk_id']} (Distancia: {r['distance']:.4f})")
    print(f"   {r['text'][:200]}...\n")


COMPARACIÓN CONFIGURACIONES

Tiempo búsqueda precisa: 0.0986s
Tiempo búsqueda rápida: 0.0561s
Speedup: 1.76x

Overlap de IDs: 5/5 (100%)

RESULTADOS CONFIGURACIÓN PRECISA
1. Doc 1391, Chunk 0 (Distancia: 0.8703)
   Battery tester A battery tester is an electronic device intended for testing the state of an electric battery, going from a simple device for testing the charge actually present in the cells and/or it...

2. Doc 1, Chunk 0 (Distancia: 0.8618)
   Battery indicator A battery indicator (also known as a battery gauge) is a device which gives information about a battery. This will usually be a visual indication of the battery's state of charge. It...

3. Doc 1391, Chunk 1 (Distancia: 0.8401)
   ing procedure, according to the type of battery being tested, such as the â€œ421â€ test for lead-acid vehicle batteries. Their common principle is based on the empirical fact that after having applie...

4. Doc 5067, Chunk 1 (Distancia: 0.8391)
   ils. One was connected via a series resi

## Parte 5 — Vector DB #3: Weaviate (búsqueda semántica con esquema)

### Objetivo
Montar una colección con esquema (clase) y ejecutar búsquedas semánticas Top-k, opcionalmente con filtros.

### Qué debes implementar
1. Conectar a Weaviate.
2. Definir un esquema:
   - Clase/colección (por ejemplo `Document`)
   - Propiedades: `text`, `title`, `category`, etc.
   - Vector asociado (embedding)
3. Insertar objetos con:
   - propiedades + vector
4. Consultar por similitud (Top-k) con `query_embedding`.
5. (Opcional) agregar un filtro por propiedad (metadata).

### Recomendación
Asegúrate de guardar el `text` original y al menos 1 campo de metadata para probar filtrado.

### Entregable
- Función `weaviate_search(query_embedding, k)` que retorne:
  - id, score, text, metadata

### Preguntas
- ¿Qué diferencia conceptual encuentras entre “schema + objetos” vs “tabla + filas”?
- ¿Cómo describirías el trade-off de complejidad vs expresividad?


## Parte 6 — Vector Store #4: Chroma (prototipado rápido)

### Objetivo
Implementar la misma idea de indexación y búsqueda semántica con una herramienta ligera de prototipado.

### Qué debes implementar
1. Crear una colección.
2. Insertar:
   - ids
   - embeddings
   - documents (texto)
   - metadatas (opcional)
3. Consultar Top-k con `query_embedding`.

### Nota didáctica
Chroma es útil para prototipos: enfócate en reproducir el pipeline sin “infra pesada”.

### Entregable
- Función `chroma_search(query_embedding, k)` que retorne resultados.
- Una consulta con `k=5`.

### Preguntas
- ¿Qué tan fácil fue implementar todo comparado con Qdrant/Milvus?
- ¿Qué limitaciones ves para un sistema en producción?


## Parte 7 — SQL + vectores: PostgreSQL/pgvector (vector search transparente)

### Objetivo
Guardar embeddings en una tabla y ejecutar una consulta SQL de similitud.

### Qué debes implementar
1. Conectar a una base PostgreSQL con `pgvector` habilitado.
2. Crear una tabla (ej. `documents`) con:
   - `id` (PK)
   - `text` (texto)
   - `embedding` (vector(D))
   - metadata (columnas adicionales)
3. Insertar todos los documentos y embeddings.
4. Consultar Top-k por similitud, ordenando por distancia.

### Fórmula conceptual (lo que implementa tu SQL)
Para una consulta `q`, buscas:
$$ argmin_d \in D \; \text{dist}(\vec{q}, \vec{d})$$
donde `dist` puede ser L2 o una variante para cosine (según configuración).

### Entregable
- Función `pgvector_search(query_embedding, k)` que ejecute SQL y devuelva:
  - id, score/distancia, text, metadata

### Preguntas
- ¿Qué tan “explicable” te parece esta aproximación vs las otras?
- ¿Qué ventajas ofrece el mundo SQL (JOIN, filtros, agregaciones)?
- ¿Qué limitaciones esperas en escalabilidad frente a bases vectoriales dedicadas?
