# Introducción a las Bases de Datos Vectoriales con ChromaDB

## 🎯 Objetivo

Que el alumno entienda:

 1. Qué son los embeddings.

 2. Cómo se almacenan y consultan en una base de datos vectorial.

 3. Cómo se realiza una búsqueda semántica.

 4. Cómo interpretar los resultados.

## 🧩 Conceptos previos

Un embedding convierte texto en un vector numérico (una lista de números) que representa su significado.

Una base de datos vectorial guarda esos vectores y permite buscar los más similares semánticamente.

## ⚙️ Configuración inicial
🧱 Instalación de dependencias



In [None]:
#pip install chromadb sentence-transformers


## Paso 1: Crear un conjunto de documentos

Creamos una pequeña base de conocimiento (simularemos artículos o fragmentos de texto):

In [None]:
# Paso 1: Base de datos textual
documentos = [
    "Los gatos son animales domésticos muy populares por su independencia.",
    "Los perros son conocidos por su lealtad y su capacidad de aprendizaje.",
    "Las ballenas son mamíferos acuáticos que viven en los océanos.",
    "El sol es una estrella que proporciona energía a la Tierra.",
    "La Luna influye en las mareas del planeta."
]


## Paso 2: Crear y poblar una base vectorial con ChromaDB

ChromaDB es una base de datos vectorial open source muy fácil de usar en local.

In [None]:
# Paso 2: Crear una base de datos vectorial
import chromadb
from chromadb.utils import embedding_functions

# Crear cliente local de ChromaDB
cliente = chromadb.Client()

# Crear una colección (tabla de vectores)
coleccion = cliente.create_collection(name="animales_astronomia")

# Crear la función de embeddings usando un modelo de Sentence Transformers
embeddings = embedding_functions.SentenceTransformerEmbeddingFunction(model_name="all-MiniLM-L6-v2")

# Insertar documentos en la colección
coleccion.add(
    documents=documentos,
    ids=[str(i) for i in range(len(documentos))]
)

print("✅ Se crearon e insertaron los documentos en la base vectorial.")

## Paso 3: Realizar una búsqueda semántica

Ahora haremos una consulta: ChromaDB convertirá la pregunta en un embedding y buscará los documentos más similares.



In [None]:
# Paso 3: Consulta semántica
pregunta = "¿Qué animales viven en el océano?"

# Buscar en la colección
resultados = coleccion.query(
    query_texts=[pregunta],
    n_results=2  # cantidad de resultados a mostrar
)

print("🔍 Resultados encontrados:\n")
for doc, distancia in zip(resultados["documents"][0], resultados["distances"][0]):
    print(f"Documento: {doc}")
    print(f"Similitud: {1 - distancia:.4f}")  # 1 - distancia = similitud
    print("-" * 60)

## Paso 4: Agregar nuevos documentos

Permite ampliar la colección con nueva información.

In [None]:
# Paso 4: Añadir nuevos textos a la base vectorial
nuevos_docs = [
    "El telescopio Hubble ha permitido estudiar galaxias lejanas.",
    "Los delfines son mamíferos marinos altamente inteligentes."
]

coleccion.add(
    documents=nuevos_docs,
    ids=[str(i) for i in range(len(documentos), len(documentos) + len(nuevos_docs))]
)

print("✅ Se añadieron nuevos documentos.")


### Preguntas teóricas 

- ¿Qué diferencia hay entre una búsqueda por palabras clave y una búsqueda vectorial?

- ¿Por qué la similitud semántica es más útil en sistemas con lenguaje natural?

- ¿Qué papel juega el modelo de embeddings en la precisión del sistema?

- Si quisieras usar imágenes en lugar de texto, ¿qué cambiaría en la base de datos vectorial?