# Práctica: Introducción a las Bases de Datos Vectoriales con ChromaDB

## ChromaDB

 Objetivo

Aplicar los conceptos de embeddings, búsqueda semántica y bases de datos vectoriales utilizando Python y la librería ChromaDB.

## Requisitos previos

Instala las librerías necesarias antes de comenzar:

In [None]:
# pip install chromadb sentence-transformers


## Ejercicio 1: Crear una base de textos

- Crea una lista en Python con mínimo 8 frases o párrafos cortos sobre distintos temas (por ejemplo: animales, espacio, deportes, tecnología).

- Guarda esas frases en una variable llamada documentos.

- Muestra por pantalla la cantidad de documentos que tienes.

In [1]:
doc_sport = ["El fútbol es el deporte más popular del mundo.",
             "El baloncesto se juega con una pelota y una canasta.",
             "El tenis se juega en una cancha con una raqueta y una pelota pequeña.",
             "El atletismo incluye carreras, saltos y lanzamientos.",
             "La natación es un deporte acuático que se practica en piscinas o en aguas abiertas.",
             "El ciclismo es una actividad física que se realiza en bicicleta.",
             "El voleibol es un deporte de equipo que se juega con una pelota y una red.",
             "El rugby es un deporte de contacto que se juega con una pelota ovalada."]

print("Número de documentos en la colección de deportes:", len(doc_sport))

Número de documentos en la colección de deportes: 8


## Ejercicio 2: Crear una base vectorial

- Importa y configura ChromaDB.

- Crea una colección llamada "base_conocimiento".

- Inserta los documentos creados en el paso anterior.

- Verifica que los documentos se hayan añadido correctamente mostrando sus IDs.

In [2]:
import chromadb
from chromadb.config import Settings
from sentence_transformers import SentenceTransformer

# Configurar cliente de ChromaDB
client = chromadb.Client()

# Crear una colección en ChromaDB
collection = client.create_collection(name="base_conocimiento")

# Insertar documentos en la base de datos
for i, doc in enumerate(doc_sport):
    collection.add(
        documents=[doc],
        metadatas=[{"source": f"documento_{i}"}],
        ids=[f"doc_{i}"]
    )
print("Documentos insertados en la base de datos.")
for i, doc in enumerate(doc_sport):
    print(f"ID: doc_{i}, Documento: {doc}")


  from .autonotebook import tqdm as notebook_tqdm
C:\Users\ST09\.cache\chroma\onnx_models\all-MiniLM-L6-v2\onnx.tar.gz: 100%|██████████| 79.3M/79.3M [00:25<00:00, 3.24MiB/s]


Documentos insertados en la base de datos.
ID: doc_0, Documento: El fútbol es el deporte más popular del mundo.
ID: doc_1, Documento: El baloncesto se juega con una pelota y una canasta.
ID: doc_2, Documento: El tenis se juega en una cancha con una raqueta y una pelota pequeña.
ID: doc_3, Documento: El atletismo incluye carreras, saltos y lanzamientos.
ID: doc_4, Documento: La natación es un deporte acuático que se practica en piscinas o en aguas abiertas.
ID: doc_5, Documento: El ciclismo es una actividad física que se realiza en bicicleta.
ID: doc_6, Documento: El voleibol es un deporte de equipo que se juega con una pelota y una red.
ID: doc_7, Documento: El rugby es un deporte de contacto que se juega con una pelota ovalada.


## Ejercicio 3: Búsqueda semántica

- Define una consulta (por ejemplo: "¿Qué animales viven en el mar?").

- Usa el método coleccion.query() para buscar los 3 documentos más similares a tu pregunta.

- Muestra los textos recuperados y su nivel de similitud.

- Analiza brevemente (en comentarios) si los resultados tienen sentido semántico.

In [3]:
consulta = "¿Cuál es el deporte más popular del mundo?"

respuesta = collection.query(
    query_texts=[consulta],
    n_results=3
)

print("Resultados de la consulta:")
for i in range(len(respuesta['ids'][0])):
    print(f"ID: {respuesta['ids'][0][i]}, Documento: {respuesta['documents'][0][i]}")


Resultados de la consulta:
ID: doc_0, Documento: El fútbol es el deporte más popular del mundo.
ID: doc_6, Documento: El voleibol es un deporte de equipo que se juega con una pelota y una red.
ID: doc_7, Documento: El rugby es un deporte de contacto que se juega con una pelota ovalada.


## Ejercicio 4: Añadir nueva información

- Agrega 2 nuevos textos a la colección con información relacionada con alguno de los temas.

- Repite la búsqueda del paso anterior.

- Observa si los resultados cambian o mejoran.

In [4]:
nueva_información = ["El fútbol es un deporte que se juega entre dos equipos de once jugadores cada uno.",
                     "El objetivo del fútbol es marcar más goles que el equipo contrario."]

for i, doc in enumerate(nueva_información):
    collection.add(
        documents=[doc],
        metadatas=[{"source": f"nueva_info_{i}"}],
        ids=[f"nuevodoc_{i}"]
    )
print("Nueva información añadida a la base de datos.")
for i, doc in enumerate(nueva_información):
    print(f"ID: nuevodoc_{i}, Documento: {doc}")

respuesta_nueva = collection.query(
    query_texts=[consulta],
    n_results=3
)
print("Resultados de la consulta después de añadir nueva información:")
for i in range(len(respuesta_nueva['ids'][0])):
    print(f"ID: {respuesta_nueva['ids'][0][i]}, Documento: {respuesta_nueva['documents'][0][i]}")

Nueva información añadida a la base de datos.
ID: nuevodoc_0, Documento: El fútbol es un deporte que se juega entre dos equipos de once jugadores cada uno.
ID: nuevodoc_1, Documento: El objetivo del fútbol es marcar más goles que el equipo contrario.
Resultados de la consulta después de añadir nueva información:
ID: doc_0, Documento: El fútbol es el deporte más popular del mundo.
ID: doc_6, Documento: El voleibol es un deporte de equipo que se juega con una pelota y una red.
ID: nuevodoc_0, Documento: El fútbol es un deporte que se juega entre dos equipos de once jugadores cada uno.


## Ejercicio 5: Comparación de similitud entre textos

- Elige dos documentos diferentes.

  Calcula su similitud de coseno usando un modelo de embeddings (por ejemplo: SentenceTransformer("all-MiniLM-L6-v2")).

  Interpreta el resultado:

- ¿Tienen relación semántica?

- ¿Qué valor de similitud obtuviste?

In [5]:
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Cargar el modelo de embeddings
model = SentenceTransformer('all-MiniLM-L6-v2')

# Elegir dos documentos diferentes
doc1 = doc_sport[0]  # "El fútbol es el deporte más popular del mundo."
doc2 = doc_sport[1]  # "El baloncesto se juega con una pelota y una canasta."

print(f"Documento 1: {doc1}")
print(f"Documento 2: {doc2}\n")

# Generar embeddings para ambos documentos
embedding1 = model.encode([doc1])
embedding2 = model.encode([doc2])

# Calcular la similitud de coseno
similitud = cosine_similarity(embedding1, embedding2)[0][0]

print(f"Similitud de coseno entre los dos documentos: {similitud:.4f}")
print(f"\n--- Análisis ---")
print(f"Valor de similitud: {similitud:.4f}")
print(f"Rango: 0 (sin similitud) a 1 (idénticos)")

# Interpretación
if similitud > 0.7:
    print("ALTA similitud semántica - Los documentos están muy relacionados")
elif similitud > 0.4:
    print("MEDIA similitud semántica - Los documentos tienen cierta relación")
else:
    print("BAJA similitud semántica - Los documentos tienen poca relación")

# Comparación adicional: documento muy diferente
print(f"\n--- Comparación adicional ---")
doc3 = doc_sport[4]  # "La natación es un deporte acuático..."
embedding3 = model.encode([doc3])
similitud2 = cosine_similarity(embedding1, embedding3)[0][0]
print(f"Similitud entre '{doc1[:30]}...' y '{doc3[:30]}...': {similitud2:.4f}")


Documento 1: El fútbol es el deporte más popular del mundo.
Documento 2: El baloncesto se juega con una pelota y una canasta.

Similitud de coseno entre los dos documentos: 0.4911

--- Análisis ---
Valor de similitud: 0.4911
Rango: 0 (sin similitud) a 1 (idénticos)
MEDIA similitud semántica - Los documentos tienen cierta relación

--- Comparación adicional ---
Similitud entre 'El fútbol es el deporte más po...' y 'La natación es un deporte acuá...': 0.4752


## Ejercicio 6: Reflexión final

- Responde brevemente (en comentarios o texto):

   ¿Qué ventajas tiene una base de datos vectorial frente a una tradicional?

   ¿Qué papel cumplen los embeddings en este proceso?

   ¿Cómo podría aplicarse este tipo de tecnología en un chatbot o asistente virtual?

### Respuestas a las preguntas de reflexión:

**1. ¿Qué ventajas tiene una base de datos vectorial frente a una tradicional?**

- **Búsqueda semántica**: Encuentra información por significado, no solo por palabras exactas
- **Comprensión contextual**: Entiende sinónimos y conceptos relacionados
- **Multilingüe**: Puede encontrar documentos similares en diferentes idiomas
- **Flexibilidad**: No requiere esquemas rígidos ni consultas SQL complejas
- **IA nativa**: Diseñada específicamente para trabajar con modelos de machine learning

**2. ¿Qué papel cumplen los embeddings en este proceso?**

- **Representación numérica**: Convierten texto en vectores que las máquinas pueden procesar
- **Captura de significado**: Preservan el significado semántico del texto original
- **Medición de similitud**: Permiten calcular qué tan similares son dos textos
- **Espacio vectorial**: Sitúan conceptos similares cerca unos de otros
- **Base para búsqueda**: Son la clave para realizar búsquedas por similitud

**3. ¿Cómo podría aplicarse este tipo de tecnología en un chatbot o asistente virtual?**

- **Base de conocimiento**: Almacenar documentación, FAQs y respuestas predefinidas
- **Recuperación de información**: Encontrar la respuesta más relevante a una pregunta del usuario
- **Contexto conversacional**: Mantener el historial de conversación como embeddings
- **Personalización**: Adaptar respuestas basándose en interacciones previas
- **Sistemas RAG**: Combinar búsqueda vectorial con generación de texto para respuestas precisas
- **Multimodal**: Buscar imágenes, videos o documentos relacionados con la consulta