
### 1. Representación Numérica de Datos  
Este fragmento de código utiliza vectores como representación numérica para manejar datos estructurados en consultas y análisis.

### 2. Bases de Datos Vectoriales  
El código implementa **ChromaDB**, una base de datos vectorial diseñada para almacenar y manejar datos de manera eficiente en formato vectorial. Esto es útil para búsquedas semánticas y clasificaciones rápidas.

### 3. Persistencia de Datos  
La configuración del directorio de persistencia (`persist_directory`) garantiza que los datos vectoriales almacenados en la base de datos sean persistentes, lo que facilita su reutilización.

### 4. Creación de Colecciones  
El ejemplo crea una colección específica (`partidos_futbol`) para organizar y consultar datos vectoriales relacionados con partidos de fútbol.


In [5]:
import chromadb
from chromadb.config import Settings

persist_directory = r"C:/Users/Usuario/vectorialDatabaseCrud/chromadb"

# Updated client configuration
chroma_client = chromadb.PersistentClient(
    path=persist_directory
)

# Create collection for football matches
collection = chroma_client.create_collection(name="partidos_futbol")


1. **Embeddings como Representación Numérica**  
   - Se utiliza el modelo `SentenceTransformer` para transformar textos en representaciones vectoriales numéricas (*embeddings*). Esto permite capturar relaciones semánticas entre las frases.

2. **Procesamiento de Lenguaje Natural (PLN)**  
   - El modelo de *embeddings* convierte las descripciones de partidos en vectores, esenciales para cálculos de similitud y análisis semántico.

3. **Almacenamiento Vectorial**  
   - Los datos de los partidos (incluyendo texto, metadatos y sus *embeddings*) se insertan en una colección de una base de datos vectorial para búsquedas eficientes.

4. **Relaciones entre Documentos**  
   - Los *embeddings* generados permiten medir similitudes entre los textos, facilitando consultas como "¿Qué partidos son más similares en contexto?"

5. **Metadatos y Organización Eficiente**  
   - Además del texto, se almacenan metadatos (como equipos, fecha y estadio) que enriquecen las búsquedas y análisis.

collection.add():

Este es un método que se utiliza para agregar (insertar) datos en una colección. La colección puede referirse a una base de datos o a un índice que almacena datos.
Parámetros de add():

ids=ids: Aquí se está pasando un conjunto de identificadores (ids) que serán asignados a los documentos que se insertan. Es probable que ids sea una lista o un array de identificadores únicos para cada documento.
documents=textos: Este parámetro contiene los documentos que se van a insertar. En este caso, textos parece ser una lista o un conjunto de textos (probablemente de partidos, si el contexto es un sistema de fútbol).
metadatas=metadatas: Aquí se incluyen los metadatos asociados con los documentos. Los metadatos podrían incluir información adicional sobre cada partido, como la fecha, el equipo local, el equipo visitante, entre otros.
embeddings=embeddings: Este parámetro contiene los embeddings, que son representaciones vectoriales de los textos. Los embeddings son utilizados en sistemas de búsqueda o modelos de inteligencia artificial para representar texto de manera que sea comprensible para los algoritmos, lo que permite comparar la similitud entre los documentos.
print("Partidos con embeddings insertados."):

Después de la operación de inserción, se imprime un mensaje en la consola indicando que los "partidos con embeddings" se han insertado correctamente en la colección.

In [None]:
from sentence_transformers import SentenceTransformer

# Modelo de embeddings
modelo_embeddings = SentenceTransformer('all-MiniLM-L6-v2')

# Datos de partidos de fútbol
partidos = [
    {"id": "1", "texto": "Partido entre Barcelona y Real Madrid en el Camp Nou el 25 de diciembre de 2025.", "metadata": {"equipo_local": "Barcelona", "equipo_visitante": "Real Madrid", "fecha": "2025-12-25", "estadio": "Camp Nou"}},
    {"id": "2", "texto": "Partido entre Manchester United y Liverpool en Old Trafford el 10 de enero de 2025.", "metadata": {"equipo_local": "Manchester United", "equipo_visitante": "Liverpool", "fecha": "2025-01-10", "estadio": "Old Trafford"}},
    {"id": "3", "texto": "Partido entre Juventus y Inter de Milan en el Allianz Stadium el 5 de marzo de 2025.", "metadata": {"equipo_local": "Juventus", "equipo_visitante": "Inter de Milan", "fecha": "2025-03-05", "estadio": "Allianz Stadium"}},
    {"id": "4", "texto": "Partido entre Bayern Munich y Borussia Dortmund en el Allianz Arena el 15 de abril de 2025.", "metadata": {"equipo_local": "Bayern Munich", "equipo_visitante": "Borussia Dortmund", "fecha": "2025-04-15", "estadio": "Allianz Arena"}},
    {"id": "5", "texto": "Partido entre PSG y Olympique de Marsella en el Parc des Princes el 30 de mayo de 2025.", "metadata": {"equipo_local": "PSG", "equipo_visitante": "Olympique de Marsella", "fecha": "2025-05-30", "estadio": "Parc des Princes"}},
    {"id": "6", "texto": "Partido entre Boca Juniors y River Plate en La Bombonera el 20 de junio de 2025.", "metadata": {"equipo_local": "Boca Juniors", "equipo_visitante": "River Plate", "fecha": "2025-06-20", "estadio": "La Bombonera"}},
    {"id": "7", "texto": "Partido entre Flamengo y Palmeiras en el Maracaná el 12 de julio de 2025.", "metadata": {"equipo_local": "Flamengo", "equipo_visitante": "Palmeiras", "fecha": "2025-07-12", "estadio": "Maracaná"}},
    {"id": "8", "texto": "Partido entre Atlético de Madrid y Sevilla en el Wanda Metropolitano el 18 de agosto de 2025.", "metadata": {"equipo_local": "Atlético de Madrid", "equipo_visitante": "Sevilla", "fecha": "2025-08-18", "estadio": "Wanda Metropolitano"}},
    {"id": "9", "texto": "Partido entre Chelsea y Arsenal en Stamford Bridge el 28 de septiembre de 2025.", "metadata": {"equipo_local": "Chelsea", "equipo_visitante": "Arsenal", "fecha": "2025-09-28", "estadio": "Stamford Bridge"}},
    {"id": "10", "texto": "Partido entre AC Milan y Napoli en San Siro el 10 de octubre de 2025.", "metadata": {"equipo_local": "AC Milan", "equipo_visitante": "Napoli", "fecha": "2025-10-10", "estadio": "San Siro"}},
]


# Generar embeddings para los textos
textos = [partido["texto"] for partido in partidos]
ids = [partido["id"] for partido in partidos]
metadatas = [partido["metadata"] for partido in partidos]
embeddings = modelo_embeddings.encode(textos).tolist()

# Insertar partidos con embeddings en la colección
collection.add(ids=ids, documents=textos, metadatas=metadatas, embeddings=embeddings)
print("Partidos con embeddings insertados.")


comparación de embeddings, específicamente en esta parte:
# Generar embedding para la consulta
consulta = "Partido entre Barcelona y Real Madrid en el Camp Nou"
embedding_consulta = modelo_embeddings.encode([consulta]).tolist()

# Buscar los documentos más similares
resultados_similares = collection.query(query_embeddings=embedding_consulta, n_results=2)

Esta sección realiza una búsqueda por similitud semántica donde:

Primero se genera un embedding para la consulta usando el modelo 'all-MiniLM-L6-v2'
Luego, ChromaDB compara internamente este embedding con los embeddings de todos los documentos en la colección
El método query() devuelve los 2 documentos más similares (n_results=2)

La comparación se realiza utilizando la similitud coseno entre los vectores de embeddings, aunque esto sucede internamente en ChromaDB. La similitud coseno mide el ángulo entre dos vectores, donde:

-Un valor más cercano a 1 indica mayor similitud
-Un valor más cercano a 0 indica menor similitud

In [29]:
# Generar embedding para la consulta
consulta = "Partido entre Barcelona y Real Madrid en el Camp Nou"
embedding_consulta = modelo_embeddings.encode([consulta]).tolist()

# Buscar los documentos más similares
resultados_similares = collection.query(query_embeddings=embedding_consulta, n_results=2)
print("Partidos similares:", resultados_similares)


Partidos similares: {'ids': [['2', '3']], 'embeddings': None, 'documents': [['Partido entre Manchester United y Liverpool en Old Trafford el 10 de enero de 2025.', 'Partido entre Juventus y Inter de Milan en el Allianz Stadium el 5 de marzo de 2025.']], 'uris': None, 'data': None, 'metadatas': [[{'equipo_local': 'Bucaramanga', 'equipo_visitante': 'Liverpool', 'estadio': 'Old Trafford', 'estado_partido': 'Finalizado', 'fecha': '2025-01-10', 'resultado': '2-1'}, {'equipo_local': 'Juventus', 'equipo_visitante': 'Inter de Milan', 'estadio': 'Allianz Stadium', 'fecha': '2025-03-05'}]], 'distances': [[0.844056806444902, 0.8645657386614436]], 'included': [<IncludeEnum.distances: 'distances'>, <IncludeEnum.documents: 'documents'>, <IncludeEnum.metadatas: 'metadatas'>]}


### Búsqueda y Filtro por Texto Exacto

Este código realiza una búsqueda semántica en la colección utilizando una consulta de texto y aplica un filtro para obtener coincidencias exactas.

1. **Consulta Inicial**:
   - Se busca `"Camp Nou"` en la colección, obteniendo documentos, metadatos y distancias.
   - El número de resultados se limita a `n_results=2`.

2. **Filtro de Coincidencias Exactas**:
   - Se filtran resultados cuyo texto contiene `"Camp Nou"` o cuyo metadato `estadio` coincide exactamente con `"Camp Nou"`.

3. **Impresión de Resultados**:
   - Los documentos filtrados se muestran con su texto, metadatos y distancia.

In [38]:
query_texto = "Camp Nou"
resultados = collection.query(
    query_texts=[query_texto],
    n_results=2,
    include=["documents", "metadatas", "distances"]
)
# Filtro de coincidencia exacta
resultados_filtrados = [
    {
        "texto": doc,
        "metadata": meta,
        "distancia": dist
    }
    for doc, meta, dist in zip(
        resultados["documents"][0],
        resultados["metadatas"][0],
        resultados["distances"][0]
    )
    if "Camp Nou" in doc or meta.get("estadio") == "Camp Nou"
]


for i, res in enumerate(resultados_filtrados, start=1):
    print(f"\nDocumento {i}:")
    print(f"Texto: {res['texto']}")
    print(f"Metadata: {res['metadata']}")
    print(f"Distancia: {res['distancia']:.4f}")


=== BÚSQUEDA FILTRADA POR TEXTO EXACTO ===

Documento 1:
Texto: Partido entre Barcelona y Real Madrid en el Camp Nou el 25 de diciembre de 2025, con 70,000 espectadores.
Metadata: {'equipo_local': 'Barcelona', 'equipo_visitante': 'Real Madrid', 'estadio': 'Camp Nou', 'fecha': '2025-12-25'}
Distancia: 1.5588


### Búsqueda Filtrada por Metadatos

Este código realiza una búsqueda semántica con un filtro adicional aplicado sobre los metadatos.

- **Consulta**: Busca documentos relacionados con `"Barcelona"`.
- **Filtro**: Incluye solo resultados donde `equipo_local` es `"Barcelona"`.
- **Resultados**: Imprime los documentos, metadatos, y distancias relevantes.

In [32]:
query_filtrado = collection.query(
    query_texts=["Barcelona"],
    n_results=2,
    where={"equipo_local": "Barcelona"},  
    include=["documents", "metadatas", "distances"]
)

print("Resultados con filtro 'equipo_local = Barcelona':")
for i in range(len(query_filtrado['documents'][0])):
    print(f"\nDocumento {i+1}:")
    print(f"Texto: {query_filtrado['documents'][0][i]}")
    print(f"Metadata: {query_filtrado['metadatas'][0][i]}")
    print(f"Distancia: {query_filtrado['distances'][0][i]:.4f}")


=== BÚSQUEDA FILTRADA ===
Resultados con filtro 'equipo_local = Barcelona':


### Actualización de Partido y su Embedding

Este código actualiza la información de un partido en la colección, incluyendo su texto, metadatos, y embedding.

1. **Generación del Nuevo Embedding**:
   - Se crea un nuevo embedding para el texto actualizado del partido.

2. **Eliminación del Partido Antiguo**:
   - Se elimina el partido existente utilizando su ID (`"1"`).

3. **Adición del Partido Actualizado**:
   - Se agrega el partido actualizado con:
     - ID: `"1"`
     - Texto: Descripción del partido.
     - Metadatos: Incluyen detalles como equipos, fecha y estadio.
     - Embedding: Generado previamente.

4. **Confirmación**:
   - Imprime un mensaje indicando que el partido ha sido actualizado.

In [33]:
# Actualizar un partido y su embedding
nuevo_texto = "Partido entre Barcelona y Real Madrid en el Camp Nou el 25 de diciembre de 2025, con 70,000 espectadores."
nuevo_embedding = modelo_embeddings.encode([nuevo_texto]).tolist()
collection.delete(ids=["1"])  # Eliminar partido antiguo
collection.add(ids=["1"], documents=[nuevo_texto], metadatas=[{"equipo_local": "Barcelona", "equipo_visitante": "Real Madrid", "fecha": "2025-12-25", "estadio": "Camp Nou"}], embeddings=nuevo_embedding)
print("Partido actualizado con nuevo embedding.")

Delete of nonexisting embedding ID: 1
Delete of nonexisting embedding ID: 1


Partido actualizado con nuevo embedding.


Búsqueda por Equipo Local

Este código realiza una búsqueda en la colección filtrando por un equipo local específico, en este caso, "Barcelona".

1. **Consulta Vacía**:
   - Se realiza una búsqueda sin texto de consulta (`query_texts=[""]`), lo que indica que la búsqueda se centrará únicamente en los metadatos.

2. **Filtro por Metadata**:
   - Se usa el filtro `where={"equipo_local": "Barcelona"}` para obtener solo los documentos donde el equipo local sea "Barcelona".

3. **Resultados**:
   - Se obtienen hasta 5 resultados (`n_results=5`), y se incluyen los documentos y metadatos de los partidos filtrados.

4. **Impresión de Resultados**:
   - Se muestran los partidos encontrados, incluyendo el texto del partido y los metadatos relacionados.

In [34]:

resultados_equipo = collection.query(
    query_texts=[""], 
    n_results=5,
    where={"equipo_local": "Barcelona"},
    include=["documents", "metadatas"]
)

print("=== PARTIDOS DEL BARCELONA COMO LOCAL ===")
for i, (doc, meta) in enumerate(zip(resultados_equipo['documents'][0], resultados_equipo['metadatas'][0])):
    print(f"\nPartido {i+1}:")
    print(f"Texto: {doc}")
    print(f"Metadata: {meta}")

Number of requested results 5 is greater than number of elements in index 3, updating n_results = 3


=== PARTIDOS DEL BARCELONA COMO LOCAL ===

Partido 1:
Texto: Partido entre Barcelona y Real Madrid en el Camp Nou el 25 de diciembre de 2025, con 70,000 espectadores.
Metadata: {'equipo_local': 'Barcelona', 'equipo_visitante': 'Real Madrid', 'estadio': 'Camp Nou', 'fecha': '2025-12-25'}


### Búsqueda por Estadio

Este código realiza una búsqueda en la colección filtrando por un estadio específico, en este caso, "Camp Nou".

1. **Consulta Vacía**:
   - Se realiza una búsqueda sin texto de consulta (`query_texts=[""]`), centrando la búsqueda exclusivamente en los metadatos.

2. **Filtro por Metadata (Estadio)**:
   - Se utiliza el filtro `where={"estadio": "Camp Nou"}` para buscar documentos relacionados con partidos jugados en el "Camp Nou".

3. **Resultados**:
   - Se limitan a los primeros 5 resultados (`n_results=5`), y se incluyen tanto los documentos como los metadatos.

4. **Impresión de Resultados**:
   - Se muestran los partidos encontrados, incluyendo el texto del partido y los metadatos asociados.

Ejemplo de uso:

In [35]:
# Búsqueda por estadio
resultados_estadio = collection.query(
    query_texts=[""],
    n_results=5,
    where={"estadio": "Camp Nou"},
    include=["documents", "metadatas"]
)


for i, (doc, meta) in enumerate(zip(resultados_estadio['documents'][0], resultados_estadio['metadatas'][0])):
    print(f"\nPartido {i+1}:")
    print(f"Texto: {doc}")
    print(f"Metadata: {meta}")


Number of requested results 5 is greater than number of elements in index 3, updating n_results = 3


=== PARTIDOS EN EL CAMP NOU ===

Partido 1:
Texto: Partido entre Barcelona y Real Madrid en el Camp Nou el 25 de diciembre de 2025, con 70,000 espectadores.
Metadata: {'equipo_local': 'Barcelona', 'equipo_visitante': 'Real Madrid', 'estadio': 'Camp Nou', 'fecha': '2025-12-25'}


### Búsqueda por Fecha Específica

Este código realiza una búsqueda en la colección filtrando por una fecha específica.

1. **Consulta Vacía**:
   - Se realiza una búsqueda sin texto de consulta (`query_texts=[""]`), lo que indica que la búsqueda se basa únicamente en los metadatos.

2. **Filtro por Fecha**:
   - Se utiliza el filtro `where={"fecha": "2025-12-25"}` para buscar documentos relacionados con partidos ocurridos en la fecha "2025-12-25".

3. **Resultados**:
   - Se limitan a los primeros 5 resultados (`n_results=5`), incluyendo tanto los documentos como los metadatos de los partidos.

4. **Impresión de Resultados**:
   - Se muestran los partidos encontrados, mostrando el texto del partido y los metadatos asociados.

In [36]:
# Búsqueda por fecha específica
resultados_fecha = collection.query(
    query_texts=[""],
    n_results=5,
    where={"fecha": "2025-12-25"},
    include=["documents", "metadatas"]
)

for i, (doc, meta) in enumerate(zip(resultados_fecha['documents'][0], resultados_fecha['metadatas'][0])):
    print(f"\nPartido {i+1}:")
    print(f"Texto: {doc}")
    print(f"Metadata: {meta}")

Number of requested results 5 is greater than number of elements in index 3, updating n_results = 3


=== PARTIDOS EN FECHA ESPECÍFICA ===

Partido 1:
Texto: Partido entre Barcelona y Real Madrid en el Camp Nou el 25 de diciembre de 2025, con 70,000 espectadores.
Metadata: {'equipo_local': 'Barcelona', 'equipo_visitante': 'Real Madrid', 'estadio': 'Camp Nou', 'fecha': '2025-12-25'}


Este código actualiza los metadatos de un partido específico en la colección.

1. **Actualización de Metadata**:
   - Se actualizan los metadatos del partido con ID `"2"`, incluyendo información como:
     - **Equipo Local**: Bucaramanga
     - **Equipo Visitante**: Liverpool
     - **Fecha**: 2025-01-10
     - **Estadio**: Old Trafford
     - **Estado del Partido**: Finalizado
     - **Resultado**: 2-1

2. **Confirmación**:
   - Imprime un mensaje confirmando que los metadatos se han actualizado correctamente.


In [37]:
collection.update(
    ids=["2"],
    metadatas=[{
        "equipo_local": "Bucaramanga",
        "equipo_visitante": "Liverpool",
        "fecha": "2025-01-10",
        "estadio": "Old Trafford",
        "estado_partido": "Finalizado",
        "resultado": "2-1"
    }]
)

print("Metadata actualizada usando update")

Metadata actualizada usando update


### Eliminación de Documento por ID

Este código elimina un documento específico de la colección utilizando su ID.

1. **Eliminación del Documento**:
   - Se elimina el documento con el ID `"9"` de la colección.

2. **Confirmación**:
   - Imprime un mensaje indicando que el documento con ID `"9"` ha sido eliminado correctamente.


In [39]:
collection.delete(ids=["9"])
print("Documento con ID 9 eliminado.")

Delete of nonexisting embedding ID: 9
Delete of nonexisting embedding ID: 9


Documento con ID 9 eliminado.
