# Pr√°ctica Chromabd

In [1]:
# 1Ô∏è‚É£ Importar librer√≠as
from sentence_transformers import SentenceTransformer
import chromadb
from chromadb.config import Settings
import os
import numpy as np
import uuid

# Modelo de embeddings
model_name = "sentence-transformers/all-MiniLM-L6-v2"
model = SentenceTransformer(model_name)

def get_embeddings(text):
    return model.encode(text).tolist()

# Inicializar ChromaDB con persistencia
client = chromadb.PersistentClient(path="./chroma_store")
collection = client.get_or_create_collection(name="documentos_ia")

def cargar_documentos():
    docs_path = "docs/"
    documentos = []
    metadatos = []
    ids = []

    for filename in os.listdir(docs_path):
        if filename.endswith(".txt"):
            with open(os.path.join(docs_path, filename), 'r', encoding="utf-8") as f:
                text = f.read().strip()
                chunks = [text[i:i+500] for i in range(0, len(text), 500)]
                
                for i, chunk in enumerate(chunks):
                    documentos.append(chunk)
                    metadatos.append({"source": filename})
                    ids.append(str(uuid.uuid4()))  # ID √∫nico
    
    return documentos, metadatos, ids

def crear_base_datos():
    docs, metas, ids = cargar_documentos()
    embeddings = [get_embeddings(d) for d in docs]
    collection.add(documents=docs, embeddings=embeddings, metadatas=metas, ids=ids)
    print("‚úÖ Base de datos creada con √©xito.")

# --- CRUD FUNCIONES ---

def create_example(new_doc):
    """A√±adir un documento nuevo"""
    embedding = get_embeddings(new_doc)
    doc_id = str(uuid.uuid4())
    metadata = {"source": "nuevo_documento.txt"}
    
    collection.add(
        documents=[new_doc],
        embeddings=[embedding],
        metadatas=[metadata],
        ids=[doc_id]
    )
    print(f"‚úÖ Documento a√±adido con ID: {doc_id}")

def read_example(query):
    """Consultar documentos similares"""
    query_emb = get_embeddings(query)
    results = collection.query(
        query_embeddings=[query_emb],
        n_results=1
    )
    
    if results["documents"]:
        print(f"üìÑ Mejor coincidencia: {results['documents'][0][0]}")
        print(f"üìÅ Fuente: {results['metadatas'][0][0]['source']}")
        print(f"üÜî ID: {results['ids'][0][0]}")
    else:
        print("‚ö†Ô∏è No se encontraron resultados.")

def get_documents_by_id(doc_id):
    """Obtener un documento por ID"""
    results = collection.get(ids=[doc_id], include=["documents", "metadatas", "embeddings"])
    
    if results["documents"]:
        print(f"üìÑ Documento: {results['documents'][0]}")
        print(f"üìÅ Fuente: {results['metadatas'][0]['source']}")
    else:
        print("‚ö†Ô∏è Documento no encontrado.")

def update_example(old_id, new_text):
    """Actualizar un documento (eliminar y reinsertar)"""
    collection.delete(ids=[old_id])
    
    new_id = str(uuid.uuid4())
    embedding = get_embeddings(new_text)
    metadata = {"source": "documento_actualizado.txt"}
    
    collection.add(
        documents=[new_text],
        embeddings=[embedding],
        metadatas=[metadata],
        ids=[new_id]
    )
    print(f"‚ôªÔ∏è Documento actualizado. Nuevo ID: {new_id}")

def delete_example(doc_id):
    """Eliminar por ID"""
    collection.delete(ids=[doc_id])
    print(f"üóëÔ∏è Documento con ID '{doc_id}' eliminado.")

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
crear_base_datos()

‚úÖ Base de datos creada con √©xito.


In [3]:
results = collection.get(include=["embeddings", "documents", "metadatas"])

In [4]:
for id, content, metadata, embedding in zip(results["ids"], results["documents"], results["metadatas"], results["embeddings"]):
    print(f"ID: {id}, Contenido: {content[:100]} ", f"Metadata: {metadata}", f"Embedding: {embedding[:5]}...")

ID: 701a73c1-0e6a-49ec-b102-2f64e19b6daf, Contenido: Hab√≠a una vez, en un reino lejano, una joven llamada Cenicienta, quien viv√≠a con su madrastra y herm  Metadata: {'source': 'doc1.txt'} Embedding: [0.036958660930395126, 0.09123437851667404, -0.006070928182452917, -0.12097123265266418, -0.08920402079820633]...
ID: 963e9055-1f39-47ff-a3bb-7bbdb252cc39, Contenido: siosas por impresionar al pr√≠ncipe, se prepararon con lujosos vestidos y joyas, pero dejaron a Cenic  Metadata: {'source': 'doc1.txt'} Embedding: [0.006394716911017895, 0.08617573976516724, -0.0019227806478738785, -0.059625402092933655, -0.06194436550140381]...
ID: 39979475-27c5-4310-a5b8-ba431d011622, Contenido: a huy√≥ dejando atr√°s uno de sus zapatos de cristal.

El pr√≠ncipe, decidido a encontrarla, recorri√≥ e  Metadata: {'source': 'doc1.txt'} Embedding: [-0.03151360899209976, 0.08306143432855606, -0.07771097123622894, -0.014628410339355469, -0.08390384167432785]...
ID: ba1dc93a-d92b-4844-bc37-2d6647e3242c, Contenido:

## Ejercicio 1: Crear y Consultar 
Crea un documento nuevo con el texto: "La zorra y el gato iban caminando juntos por el bosque, y comenzaron a hablar sobre lo que har√≠an si los atacaban los perros de caza. La zorra se jactaba de tener muchas estrategias, mientras que el gato dec√≠a que solo conoc√≠a una: trepar a un √°rbol para escapar". 
Realiza una consulta para encontrar documentos similares a la frase: "Cuando hay peligro, algunos animales prefieren escapar trepando antes que confiar en planes complicados".

In [5]:
new_doc = "Hab√≠a una vez un lobo malvado que asustaba a todos los animales del bosque. Un d√≠a encontr√≥ a una astuta zorra que lo enga√±√≥ para salvarse."

create_example(new_doc)

‚úÖ Documento a√±adido con ID: 5c0ab31a-483e-4e2e-9cd8-f4f7a8e27ddb


In [6]:
query = "Un lobo enga√±oso y una zorra astuta en el bosque."

read_example(query)

üìÑ Mejor coincidencia: Hab√≠a una vez un lobo malvado que asustaba a todos los animales del bosque. Un d√≠a encontr√≥ a una astuta zorra que lo enga√±√≥ para salvarse.
üìÅ Fuente: nuevo_documento.txt
üÜî ID: 5c0ab31a-483e-4e2e-9cd8-f4f7a8e27ddb


### ¬øQu√© tipo de operaci√≥n CRUD usaste primero?

La primera operaci√≥n utilizada fue la "C" de Create.

### ¬øCu√°l es el ID del documento creado?

Documento a√±adido con ID: 5c0ab31a-483e-4e2e-9cd8-f4f7a8e27ddb

### Explica por qu√© el documento aparece como coincidencia en la consulta.

La consulta fue:

> "Cuando hay peligro, algunos animales prefieren escapar trepando antes que confiar en planes complicados."

El documento aparece como la mejor coincidencia en la consulta porque el texto de la consulta ("Un lobo enga√±oso y una zorra astuta en el bosque") es muy similar al contenido del documento creado, que habla del lobo y la zorra en el bosque. La similitud sem√°ntica entre las palabras clave ("lobo", "zorra", "bosque", "enga√±√≥") y el contexto general hace que el sistema lo considere como una coincidencia relevante.


## Ejercicio 2: Actualizar y Eliminar 
Crea un documento con el texto: "Hab√≠a una vez un lobo malvado que asustaba a todos los animales del bosque." 

Encuentra su ID, luego actual√≠zalo por: "Un lobo astuto enga√±√≥ a los animales del bosque para conseguir lo que quer√≠a."

Elimina el documento original usando el mismo ID. 

In [7]:
new_doc2 = "Hab√≠a una vez un lobo malvado que asustaba a todos los animales del bosque."

create_example(new_doc2)

‚úÖ Documento a√±adido con ID: c7825f85-bf71-40ae-b303-e51f908d3338


In [9]:
new_text = "Un lobo astuto enga√±√≥ a los animales del bosque para conseguir lo que quer√≠a."
old_id = "c7825f85-bf71-40ae-b303-e51f908d3338"

update_example(old_id, new_text)

‚ôªÔ∏è Documento actualizado. Nuevo ID: 11572d22-b21f-4f3f-9320-874ed18faa6b


### ¬øQu√© ocurre si intentas actualizar un documento eliminado? 

In [10]:
update_example(old_id, new_text)

Delete of nonexisting embedding ID: c7825f85-bf71-40ae-b303-e51f908d3338
Delete of nonexisting embedding ID: c7825f85-bf71-40ae-b303-e51f908d3338


‚ôªÔ∏è Documento actualizado. Nuevo ID: 2a77cc1d-edc4-49be-b8fd-e0ead44f7be2


En la funci√≥n `update_example`, la operaci√≥n de actualizaci√≥n consiste en **eliminar un documento por su ID** y luego **insertar uno nuevo con contenido actualizado**.

Si intent√°s actualizar un documento que **ya fue eliminado anteriormente**, la operaci√≥n `collection.delete(ids=[old_id])` simplemente **no encuentra nada que eliminar**, y **no genera un error cr√≠tico**. Esto es esperado, ya que muchas implementaciones de bases de datos vectoriales manejan estas situaciones de forma tolerante, permitiendo operaciones idempotentes (es decir, que se puedan repetir sin cambiar el resultado).

### ¬øC√≥mo se garantiza la integridad de los datos en las operaciones? 

La integridad de los datos se garantiza mediante:

1. **IDs √∫nicos:** Cada documento tiene un `id` √∫nico (en este caso generado con `uuid.uuid4()`), lo que evita colisiones o sobrescrituras accidentales.
2. **Eliminaci√≥n expl√≠cita:** Al eliminar antes de insertar, evitamos que haya duplicados no deseados del mismo contenido modificado.
3. **Control de metadatos:** Al usar campos como `"source"` dentro de `metadata`, se puede rastrear el origen y estado del documento, incluso despu√©s de ser actualizado.
4. **Uso de embeddings consistentes:** Cada nuevo documento se vectoriza al momento de ser insertado, lo que asegura que su representaci√≥n sem√°ntica est√© alineada con su contenido actual.

Este enfoque de "eliminar y reinsertar" es simple pero efectivo para garantizar consistencia en bases de datos vectoriales que no siempre permiten operaciones `update` nativas.

## Ejercicio 3: Errores y Validaci√≥n 
Intenta eliminar un documento con el ID "no_existe". 

Crea un nuevo documento sin usar get_embeddings() (ejemplo: enviar un array vac√≠o). 

In [11]:
delete_example("no_existe")

Delete of nonexisting embedding ID: no_existe
Delete of nonexisting embedding ID: no_existe


üóëÔ∏è Documento con ID 'no_existe' eliminado.


In [12]:
# Crear un documento sin usar get_embeddings()
collection.add(
    documents=["Texto sin embedding"],
    embeddings=[[]],  # array vac√≠o
    metadatas=[{"source": "sin_embedding.txt"}],
    ids=[str(uuid.uuid4())]
)

--- Logging error ---
Traceback (most recent call last):
  File "/Users/emilianomartino/Documents/BDIA-MARTINO/TP4 VectorDatabases/.venv/lib/python3.9/site-packages/chromadb/db/mixins/embeddings_queue.py", line 308, in _notify_one
    sub.callback(filtered_embeddings)
  File "/Users/emilianomartino/Documents/BDIA-MARTINO/TP4 VectorDatabases/.venv/lib/python3.9/site-packages/chromadb/segment/impl/vector/local_persistent_hnsw.py", line 211, in _write_records
    self._ensure_index(len(records), len(record["embedding"]))
  File "/Users/emilianomartino/Documents/BDIA-MARTINO/TP4 VectorDatabases/.venv/lib/python3.9/site-packages/chromadb/segment/impl/vector/local_hnsw.py", line 208, in _ensure_index
    raise InvalidDimensionException(
chromadb.errors.InvalidDimensionException: Dimensionality of (0) does not match indexdimensionality (384)

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/Applications/Xcode.app/Contents/Develop

### ¬øQu√© errores ocurren en cada caso? 

- **Eliminar un documento con un ID inexistente:**

  No se genera un error cr√≠tico. ChromaDB simplemente ignora el ID si no existe en la colecci√≥n. Este comportamiento es **idempotente y seguro**, lo que permite hacer m√∫ltiples intentos de eliminaci√≥n sin afectar la integridad de la base.

- **Agregar un documento sin `get_embeddings()` (por ejemplo, con una lista vac√≠a):**

  Se genera un **`ValueError` o `RuntimeError`**, dependiendo del backend utilizado. Esto ocurre porque el sistema espera un **vector num√©rico v√°lido**, y un array vac√≠o no cumple con ese requisito. La operaci√≥n falla al intentar procesar el embedding inv√°lido.

### ¬øC√≥mo prevenir estos problemas? 

- Para evitar errores al eliminar documentos, se recomienda verificar previamente si el ID existe en la colecci√≥n. Esto evita realizar operaciones innecesarias o confusas sobre documentos inexistentes.

- Para prevenir fallos al agregar documentos, es fundamental asegurarse de que los embeddings se hayan generado correctamente y que no est√©n vac√≠os. Validar este paso garantiza que el sistema reciba datos en el formato esperado y evita errores en tiempo de ejecuci√≥n.

## Ejercicio 4: Consultas por Tema 
Crea tres documentos: 
* "La madrastra malvada de Blanca Nieves y su plan oculto" 
* "La bruja de Hansel y Gretel y su trampa mortal" 
* "El lobo de Caperucita Roja y su enga√±o mal√©volo" 

Realiza una consulta por la frase: "Villanos de los cuentos de los Hermanos Grimm". 

In [13]:
doc1 = "La madrastra malvada de Blanca Nieves y su plan oculto" 
doc2 = "La bruja de Hansel y Gretel y su trampa mortal" 
doc3 = "El lobo de Caperucita Roja y su enga√±o mal√©volo" 

create_example(doc1)
create_example(doc2)
create_example(doc3)

‚úÖ Documento a√±adido con ID: 2e3495fe-6c7c-4b37-bbe1-6b1035b56482
‚úÖ Documento a√±adido con ID: 2f84b187-b20d-4c01-a8c5-2738870056a7
‚úÖ Documento a√±adido con ID: e56bf13b-dd73-4d26-ba6c-544f1eb447d3


In [14]:
consulta = "Villanos de los cuentos de los Hermanos Grimm"
read_example(consulta)

üìÑ Mejor coincidencia: La bruja de Hansel y Gretel y su trampa mortal
üìÅ Fuente: nuevo_documento.txt
üÜî ID: 2f84b187-b20d-4c01-a8c5-2738870056a7


### ¬øCu√°les documentos aparecen como coincidencias? 

**"La bruja de Hansel y Gretel y su trampa mortal"** fue identificado como la mejor coincidencia, lo que tiene sentido, dado que la consulta est√° enfocada en villanos, y la bruja es uno de los villanos m√°s emblem√°ticos de los cuentos de los Hermanos Grimm.

### Analiza c√≥mo las palabras clave influyen en los resultados.

La raz√≥n de esta coincidencia puede ser que las palabras clave de la consulta "villanos", "trampa", y "mortal" est√°n estrechamente relacionadas con el contexto de la bruja en la historia, que es conocida por su papel de antagonista.

Los otros villanos como la madrastra de Blanca Nieves y el lobo de Caperucita Roja no coincidieron tan bien probablemente debido a que sus descripciones o palabras clave no se ajustaron tan estrechamente a las especificaciones de la consulta.

## Ejercicio 5: Eliminaciones Selectivas 
Crea dos documentos con t√≥picos opuestos (ejemplo: uno sobre "Ecolog√≠a" y otro sobre 
"Miner√≠a de datos"). 

Elimina el documento sobre ecolog√≠a usando su ID. 

Verifica que solo quede un documento. 

¬øC√≥mo usar collection.count() para confirmar? 


Usaremos los conceptos de "magia" y "realidad" como temas opuestos dentro de los cuentos. Uno puede hablar sobre "magia" (como algo fant√°stico y sobrenatural), y el otro sobre "realidad" (como los aspectos m√°s mundanos y reales de la vida cotidiana).

In [15]:
create_example("La magia esta presente en los cuentos")
create_example("Los personajes de los cuentos viven una realida muy dura")

‚úÖ Documento a√±adido con ID: 523877ac-7a8b-47e7-8929-cc533b80f593
‚úÖ Documento a√±adido con ID: 7a119dcd-092d-493e-80b2-c1adcc87e6b6


In [16]:
count = collection.count()
print(f"Cantidad de documentos en la colecci√≥n: {count}")

Cantidad de documentos en la colecci√≥n: 19


In [18]:
# Se eliminara el documento relacionado con la magia.

id_magia = "523877ac-7a8b-47e7-8929-cc533b80f593"
delete_example(id_magia)

üóëÔ∏è Documento con ID '523877ac-7a8b-47e7-8929-cc533b80f593' eliminado.


In [19]:
count = collection.count()
print(f"Cantidad de documentos restantes en la colecci√≥n: {count}")

Cantidad de documentos restantes en la colecci√≥n: 18


## Ejercicio 6: Actualizaci√≥n en Cadena 

Crea un documento con el texto "Los dilemas morales en los cuentos de los Hermanos Grimm". 

Actual√≠zalo dos veces: 
* Primera actualizaci√≥n: "El sacrificio de los ni√±os en Hansel y Gretel y el dilema de la supervivencia" 
* Segunda actualizaci√≥n: "Las consecuencias de las decisiones de los villanos en los cuentos de Cenicienta y Blanca Nieves". 

In [20]:
create_example("Los dilemas morales en los cuentos de los Hermanos Grimm")

‚úÖ Documento a√±adido con ID: 074b1f7d-cc18-4a46-8688-9ca9ba9da68e


In [21]:
id_doc_inicial = "074b1f7d-cc18-4a46-8688-9ca9ba9da68e"
update_example(id_doc_inicial, "El sacrificio de los ni√±os en Hansel y Gretel y el dilema de la supervivencia")


‚ôªÔ∏è Documento actualizado. Nuevo ID: 8f636ddc-58fa-4cfd-9364-1e63e97c6b94


In [22]:
# Segunda actualizaci√≥n: hablar sobre las consecuencias de las decisiones morales en los cuentos
update_example(id_doc_inicial, "Las consecuencias de las decisiones de los villanos en los cuentos de Cenicienta y Blanca Nieves")


Delete of nonexisting embedding ID: 074b1f7d-cc18-4a46-8688-9ca9ba9da68e
Delete of nonexisting embedding ID: 074b1f7d-cc18-4a46-8688-9ca9ba9da68e


‚ôªÔ∏è Documento actualizado. Nuevo ID: bf01b4dc-734a-45c1-a761-dcb669e70fe1


### ¬øC√≥mo sigue evolucionando el contenido del documento con cada update? 

El documento empieza con una visi√≥n general de los dilemas morales en los cuentos, luego se especializa en un caso espec√≠fico y, finalmente, aborda las consecuencias morales a lo largo de varios cuentos.

Este proceso refleja c√≥mo el contenido del documento se actualiza en cadena, pasando de un tema general a uno m√°s detallado y espec√≠fico, para finalmente cubrir un conjunto m√°s amplio de ejemplos.

## Ejercicio 7: Consultas Ambiguas 
Crea dos documentos similares pero no id√©nticos: 
* "Blanca Nieves era la m√°s hermosa del reino" 
* "La reina pregunt√≥ qui√©n era la m√°s hermosa". 

Realiza una consulta por "La m√°s hermosa". 

In [23]:
create_example("Blanca Nieves era la m√°s hermosa del reino")
create_example("La reina pregunt√≥ qui√©n era la m√°s hermosa")

‚úÖ Documento a√±adido con ID: 675c46b8-56b8-450d-b0f7-becfc8cdca3d
‚úÖ Documento a√±adido con ID: 0a65e373-98cd-4796-853c-5906126d4da4


In [24]:
read_example("La m√°s hermosa")

üìÑ Mejor coincidencia: La reina pregunt√≥ qui√©n era la m√°s hermosa
üìÅ Fuente: nuevo_documento.txt
üÜî ID: 0a65e373-98cd-4796-853c-5906126d4da4


### ¬øAmbos documentos aparecen? 

No, solamente aparecio el 2er texto guardado. Eso indica que, ChromaDB identific√≥ mayor similitud sem√°ntica con ese documento que con el otro.

### Explica la similitud sem√°ntica. 

Ambas frases comparten el mismo concepto central: el reconocimiento de qui√©n es la m√°s hermosa dentro del reino.
Sin embargo, est√°n formuladas de manera diferente:

* Una es una afirmaci√≥n directa sobre Blanca Nieves.

* La otra es una pregunta indirecta relacionada con la reina.

Aunque no hay coincidencia textual exacta entre la consulta "La m√°s hermosa" y la frase completa "La reina pregunt√≥ qui√©n era la m√°s hermosa", el modelo pudo reconocer que ambas tratan el mismo significado.

El hecho de que ese segundo documento haya sido la mejor coincidencia, indica que el motor valor√≥ m√°s el contexto sem√°ntico en que aparece la expresi√≥n "la m√°s hermosa" (dentro de una estructura narrativa).

## Ejercicio 8: Reiniciar Base de Datos 
Elimina todos los documentos usando delete() con el par√°metro correcto. 

Vuelve a cargar la base desde cero con crear_base_datos(). 

¬øCu√°ntos documentos hay ahora? (Usa collection.count()). 

In [25]:
count = collection.count()
print(f"Cantidad de documentos en la colecci√≥n: {count}")

Cantidad de documentos en la colecci√≥n: 22


In [26]:
collection.delete(where={})

Delete of nonexisting embedding ID: 3e8150f5-47d8-4830-85c4-9e26be200640


In [27]:
crear_base_datos()

‚úÖ Base de datos creada con √©xito.


In [28]:
count = collection.count()
print(f"Cantidad de documentos en la colecci√≥n: {count}")

Cantidad de documentos en la colecci√≥n: 9


## Ejercicio 9: Errores de Inserci√≥n 
Intenta crear un documento sin texto (ejemplo: cadena vac√≠a). 

Corrige el error usando la funci√≥n get_embeddings().

In [29]:
create_example("")


‚úÖ Documento a√±adido con ID: be53ef81-ea8a-45eb-b4a3-7eb1bccae347


In [30]:
get_documents_by_id("be53ef81-ea8a-45eb-b4a3-7eb1bccae347")

üìÑ Documento: 
üìÅ Fuente: nuevo_documento.txt


a funci√≥n create_example() permite a√±adir nuevos documentos a la base de datos utilizando un modelo de embeddings. Sin embargo, en su versi√≥n actual, no contiene ninguna validaci√≥n que impida insertar cadenas vac√≠as.

Esto representa un problema, ya que:

* Una cadena vac√≠a no aporta significado sem√°ntico.

* Aunque el modelo de embeddings pueda generar un vector (por ejemplo, uno por defecto o casi nulo), este no representa informaci√≥n √∫til.

* Se corre el riesgo de contaminar la base de datos con documentos irrelevantes o sin contenido.

Para solucionar esto se deber√≠a agregar una validaci√≥n que verifique que el texto no est√© vac√≠o antes de generar el embedding e insertarlo. 

In [31]:
def create_example(new_doc):
    """A√±adir un documento nuevo (con validaci√≥n de contenido)"""
    if not new_doc.strip():
        print("‚ùå Error: No se puede insertar un documento vac√≠o.")
        return

    embedding = get_embeddings(new_doc)
    doc_id = str(uuid.uuid4())
    metadata = {"source": "nuevo_documento.txt"}

    collection.add(
        documents=[new_doc],
        embeddings=[embedding],
        metadatas=[metadata],
        ids=[doc_id]
    )
    print(f"‚úÖ Documento a√±adido con ID: {doc_id}")

In [32]:
create_example("")

‚ùå Error: No se puede insertar un documento vac√≠o.


### ¬øQu√© lecci√≥n aprendemos sobre los requisitos de ChromaDB?

* Es responsabilidad del desarrollador validar el contenido de los documentos antes de insertarlos.

* ChromaDB y los modelos de embeddings no siempre detendr√°n una inserci√≥n inv√°lida, especialmente si se proporciona un embedding num√©ricamente v√°lido.

* Incluir controles de calidad y limpieza de datos mejora la consistencia y utilidad de la base vectorial.