# Introducción a las Bases de Datos Vectoriales con ChromaDB

## 🎯 Objetivo

Que el alumno entienda:

 1. Qué son los embeddings.

 2. Cómo se almacenan y consultan en una base de datos vectorial.

 3. Cómo se realiza una búsqueda semántica.

 4. Cómo interpretar los resultados.

## 🧩 Conceptos previos

Un embedding convierte texto en un vector numérico (una lista de números) que representa su significado.

Una base de datos vectorial guarda esos vectores y permite buscar los más similares semánticamente.

## ⚙️ Configuración inicial
🧱 Instalación de dependencias



In [1]:
#pip install chromadb sentence-transformers


## Paso 1: Crear un conjunto de documentos

Creamos una pequeña base de conocimiento (simularemos artículos o fragmentos de texto):

In [2]:
documentos = [
    "La inteligencia artificial es una rama de la informática que busca crear sistemas capaces de realizar tareas que requieren inteligencia humana.",
    "El aprendizaje automático es un subconjunto de la IA que permite a las máquinas aprender de los datos sin ser programadas explícitamente.",
    "Las redes neuronales son modelos computacionales inspirados en el cerebro humano, utilizados en deep learning.",
    "Python es el lenguaje de programación más popular para desarrollar aplicaciones de IA y machine learning.",
    "Los embeddings son representaciones vectoriales de texto que capturan su significado semántico."
]

print(f"Se han creado {len(documentos)} documentos")

Se han creado 5 documentos


## Paso 2: Crear y poblar una base vectorial con ChromaDB

ChromaDB es una base de datos vectorial open source muy fácil de usar en local.

In [5]:
import chromadb
from chromadb.config import Settings
from sentence_transformers import SentenceTransformer

# Configurar el cliente de ChromaDB
client = chromadb.Client()

# Crear una colección en ChromaDB
collection = client.create_collection(name="documentos_ia")
print("Colección 'documentos_ia' creada en ChromaDB")

# Cargar el modelo de embeddings
model = SentenceTransformer('all-MiniLM-L6-v2')
print("Modelo de embeddings 'all-MiniLM-L6-v2' cargado")

# Generar embeddings para los documentos
embeddings = model.encode(documentos)
print("Embeddings generados para los documentos")

# Agregar documentos y sus embeddings a la colección
collection.add(
    documents=documentos,
    embeddings=embeddings.tolist(),
    ids=[str(i) for i in range(len(documentos))]
)


  from .autonotebook import tqdm as notebook_tqdm


Colección 'documentos_ia' creada en ChromaDB


To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


Modelo de embeddings 'all-MiniLM-L6-v2' cargado
Embeddings generados para los documentos


## Paso 3: Realizar una búsqueda semántica

Ahora haremos una consulta: ChromaDB convertirá la pregunta en un embedding y buscará los documentos más similares.



In [None]:
consulta = "¿Qué es el aprendizaje automático?"
# Generar embedding para la consulta
consulta_embedding = model.encode([consulta])[0]

# Realizar una consulta de similitud
results = collection.query(
    query_embeddings=[consulta_embedding.tolist()],
    n_results=3
)

print(f"Consulta realizada: '{consulta}'")
print("Resultados de la consulta:")
for doc_id, score in zip(results['ids'][0], results['distances'][0]):
    index = int(doc_id)
    print(f"- Documento ID {doc_id} (Score: {score:.4f}): {documentos[index]}")
    

Consulta realizada: '¿Qué es el aprendizaje automático?'
Resultados de la consulta:
- Documento ID 1 (Score: 0.6602): El aprendizaje automático es un subconjunto de la IA que permite a las máquinas aprender de los datos sin ser programadas explícitamente.
- Documento ID 0 (Score: 0.8845): La inteligencia artificial es una rama de la informática que busca crear sistemas capaces de realizar tareas que requieren inteligencia humana.
- Documento ID 3 (Score: 1.1910): Python es el lenguaje de programación más popular para desarrollar aplicaciones de IA y machine learning.


## Paso 4: Agregar nuevos documentos

Permite ampliar la colección con nueva información.

In [None]:
nuevos_documentos = [
    "La visión por computadora es una disciplina que permite a las máquinas interpretar y comprender imágenes y videos.",
    "El procesamiento del lenguaje natural se enfoca en la interacción entre computadoras y el lenguaje humano."
]

collection.add(
    documents=nuevos_documentos,
    embeddings=model.encode(nuevos_documentos).tolist(),
    ids=[str(i) for i in range(len(nuevos_documentos))]
)
print(f"{len(nuevos_documentos)} nuevos documentos agregados a la colección 'documentos_ia'")


### Preguntas teóricas 

- ¿Qué diferencia hay entre una búsqueda por palabras clave y una búsqueda vectorial?

- ¿Por qué la similitud semántica es más útil en sistemas con lenguaje natural?

- ¿Qué papel juega el modelo de embeddings en la precisión del sistema?

- Si quisieras usar imágenes en lugar de texto, ¿qué cambiaría en la base de datos vectorial?