
### 1. Representación Numérica de Datos  
Este fragmento de código utiliza vectores como representación numérica para manejar datos estructurados en consultas y análisis.

### 2. Bases de Datos Vectoriales  
El código implementa **ChromaDB**, una base de datos vectorial diseñada para almacenar y manejar datos de manera eficiente en formato vectorial. Esto es útil para búsquedas semánticas y clasificaciones rápidas.

### 3. Persistencia de Datos  
La configuración del directorio de persistencia (`persist_directory`) garantiza que los datos vectoriales almacenados en la base de datos sean persistentes, lo que facilita su reutilización.

### 4. Creación de Colecciones  
El ejemplo crea una colección específica (`partidos_futbol`) para organizar y consultar datos vectoriales relacionados con partidos de fútbol.


In [5]:
import chromadb
from chromadb.config import Settings

persist_directory = r"C:/Users/Usuario/vectorialDatabaseCrud/chromadb"

# Updated client configuration
chroma_client = chromadb.PersistentClient(
    path=persist_directory
)

# Create collection for football matches
collection = chroma_client.create_collection(name="partidos_futbol")



1. **Embeddings como Representación Numérica**  
   - Se utiliza el modelo `SentenceTransformer` para transformar textos en representaciones vectoriales numéricas (*embeddings*). Esto permite capturar relaciones semánticas entre las frases.

2. **Procesamiento de Lenguaje Natural (PLN)**  
   - El modelo de *embeddings* convierte las descripciones de partidos en vectores, esenciales para cálculos de similitud y análisis semántico.

3. **Almacenamiento Vectorial**  
   - Los datos de los partidos (incluyendo texto, metadatos y sus *embeddings*) se insertan en una colección de una base de datos vectorial para búsquedas eficientes.

4. **Relaciones entre Documentos**  
   - Los *embeddings* generados permiten medir similitudes entre los textos, facilitando consultas como "¿Qué partidos son más similares en contexto?"

5. **Metadatos y Organización Eficiente**  
   - Además del texto, se almacenan metadatos (como equipos, fecha y estadio) que enriquecen las búsquedas y análisis.

In [None]:
from sentence_transformers import SentenceTransformer

# Modelo de embeddings
modelo_embeddings = SentenceTransformer('all-MiniLM-L6-v2')

# Datos de partidos de fútbol
partidos = [
    {"id": "1", "texto": "Partido entre Barcelona y Real Madrid en el Camp Nou el 25 de diciembre de 2025.", "metadata": {"equipo_local": "Barcelona", "equipo_visitante": "Real Madrid", "fecha": "2025-12-25", "estadio": "Camp Nou"}},
    {"id": "2", "texto": "Partido entre Manchester United y Liverpool en Old Trafford el 10 de enero de 2025.", "metadata": {"equipo_local": "Manchester United", "equipo_visitante": "Liverpool", "fecha": "2025-01-10", "estadio": "Old Trafford"}},
    {"id": "3", "texto": "Partido entre Juventus y Inter de Milan en el Allianz Stadium el 5 de marzo de 2025.", "metadata": {"equipo_local": "Juventus", "equipo_visitante": "Inter de Milan", "fecha": "2025-03-05", "estadio": "Allianz Stadium"}},
]

# Generar embeddings para los textos
textos = [partido["texto"] for partido in partidos]
ids = [partido["id"] for partido in partidos]
metadatas = [partido["metadata"] for partido in partidos]
embeddings = modelo_embeddings.encode(textos).tolist()

# Insertar partidos con embeddings en la colección
collection.add(ids=ids, documents=textos, metadatas=metadatas, embeddings=embeddings)
print("Partidos con embeddings insertados.")


comparación de embeddings, específicamente en esta parte:
# Generar embedding para la consulta
consulta = "Partido entre Barcelona y Real Madrid en el Camp Nou"
embedding_consulta = modelo_embeddings.encode([consulta]).tolist()

# Buscar los documentos más similares
resultados_similares = collection.query(query_embeddings=embedding_consulta, n_results=2)

Esta sección realiza una búsqueda por similitud semántica donde:

Primero se genera un embedding para la consulta usando el modelo 'all-MiniLM-L6-v2'
Luego, ChromaDB compara internamente este embedding con los embeddings de todos los documentos en la colección
El método query() devuelve los 2 documentos más similares (n_results=2)

La comparación se realiza utilizando la similitud coseno entre los vectores de embeddings, aunque esto sucede internamente en ChromaDB. La similitud coseno mide el ángulo entre dos vectores, donde:

-Un valor más cercano a 1 indica mayor similitud
-Un valor más cercano a 0 indica menor similitud

In [None]:
# Generar embedding para la consulta
consulta = "Partido entre Barcelona y Real Madrid en el Camp Nou"
embedding_consulta = modelo_embeddings.encode([consulta]).tolist()

# Buscar los documentos más similares
resultados_similares = collection.query(query_embeddings=embedding_consulta, n_results=2)
print("Partidos similares:", resultados_similares)


In [None]:
# Actualizar un partido y su embedding
nuevo_texto = "Partido entre Barcelona y Real Madrid en el Camp Nou el 25 de diciembre de 2025, con 70,000 espectadores."
nuevo_embedding = modelo_embeddings.encode([nuevo_texto]).tolist()
collection.delete(ids=["1"])  # Eliminar partido antiguo
collection.add(ids=["1"], documents=[nuevo_texto], metadatas=[{"equipo_local": "Barcelona", "equipo_visitante": "Real Madrid", "fecha": "2025-12-25", "estadio": "Camp Nou"}], embeddings=nuevo_embedding)
print("Partido actualizado con nuevo embedding.")


In [None]:
# Eliminar un partido
collection.delete(ids=["2"])
print("Partido eliminado.")


In [None]:
client.persist()

In [None]:
from IPython.display import clear_output
clear_output(wait=True)

In [None]:
import chromadb

# Inspeccionar las instancias activas
print(chromadb.api.ClientCreator._identifier_to_system)


In [None]:
from IPython.display import display, Javascript
display(Javascript("Jupyter.notebook.kernel.restart()"))


In [None]:
import os

# Verifica si la carpeta chromadb existe
path = "./chromadb"
if os.path.exists(path):
    print(f"La carpeta existe en: {os.path.abspath(path)}")
else:
    print("La carpeta 'chromadb' no fue creada.")
