# Introducci√≥n a las Bases de Datos Vectoriales con ChromaDB

## üéØ Objetivo

Que el alumno entienda:

 1. Qu√© son los embeddings.

 2. C√≥mo se almacenan y consultan en una base de datos vectorial.

 3. C√≥mo se realiza una b√∫squeda sem√°ntica.

 4. C√≥mo interpretar los resultados.

## üß© Conceptos previos

Un embedding convierte texto en un vector num√©rico (una lista de n√∫meros) que representa su significado.

Una base de datos vectorial guarda esos vectores y permite buscar los m√°s similares sem√°nticamente.

## ‚öôÔ∏è Configuraci√≥n inicial
üß± Instalaci√≥n de dependencias



In [None]:
#pip install chromadb sentence-transformers


## Paso 1: Crear un conjunto de documentos

Creamos una peque√±a base de conocimiento (simularemos art√≠culos o fragmentos de texto):

In [None]:
# Paso 1: Base de datos textual
documentos = [
    "Los gatos son animales dom√©sticos muy populares por su independencia.",
    "Los perros son conocidos por su lealtad y su capacidad de aprendizaje.",
    "Las ballenas son mam√≠feros acu√°ticos que viven en los oc√©anos.",
    "El sol es una estrella que proporciona energ√≠a a la Tierra.",
    "La Luna influye en las mareas del planeta."
]


## Paso 2: Crear y poblar una base vectorial con ChromaDB

ChromaDB es una base de datos vectorial open source muy f√°cil de usar en local.

In [None]:
# Paso 2: Crear una base de datos vectorial
import chromadb
from chromadb.utils import embedding_functions

# Crear cliente local de ChromaDB
cliente = chromadb.Client()

# Crear una colecci√≥n (tabla de vectores)
coleccion = cliente.create_collection(name="animales_astronomia")

# Crear la funci√≥n de embeddings usando un modelo de Sentence Transformers
embeddings = embedding_functions.SentenceTransformerEmbeddingFunction(model_name="all-MiniLM-L6-v2")

# Insertar documentos en la colecci√≥n
coleccion.add(
    documents=documentos,
    ids=[str(i) for i in range(len(documentos))]
)

print("‚úÖ Se crearon e insertaron los documentos en la base vectorial.")

## Paso 3: Realizar una b√∫squeda sem√°ntica

Ahora haremos una consulta: ChromaDB convertir√° la pregunta en un embedding y buscar√° los documentos m√°s similares.



In [None]:
# Paso 3: Consulta sem√°ntica
pregunta = "¬øQu√© animales viven en el oc√©ano?"

# Buscar en la colecci√≥n
resultados = coleccion.query(
    query_texts=[pregunta],
    n_results=2  # cantidad de resultados a mostrar
)

print("üîç Resultados encontrados:\n")
for doc, distancia in zip(resultados["documents"][0], resultados["distances"][0]):
    print(f"Documento: {doc}")
    print(f"Similitud: {1 - distancia:.4f}")  # 1 - distancia = similitud
    print("-" * 60)

## Paso 4: Agregar nuevos documentos

Permite ampliar la colecci√≥n con nueva informaci√≥n.

In [None]:
# Paso 4: A√±adir nuevos textos a la base vectorial
nuevos_docs = [
    "El telescopio Hubble ha permitido estudiar galaxias lejanas.",
    "Los delfines son mam√≠feros marinos altamente inteligentes."
]

coleccion.add(
    documents=nuevos_docs,
    ids=[str(i) for i in range(len(documentos), len(documentos) + len(nuevos_docs))]
)

print("‚úÖ Se a√±adieron nuevos documentos.")


### Preguntas te√≥ricas 

- ¬øQu√© diferencia hay entre una b√∫squeda por palabras clave y una b√∫squeda vectorial?

- ¬øPor qu√© la similitud sem√°ntica es m√°s √∫til en sistemas con lenguaje natural?

- ¬øQu√© papel juega el modelo de embeddings en la precisi√≥n del sistema?

- Si quisieras usar im√°genes en lugar de texto, ¬øqu√© cambiar√≠a en la base de datos vectorial?