# BDD hybride par ChromaDB

# Explications

Les bases de donn√©es vectorielles hybrides, comme **ChromaDB**, combinent **des vecteurs** (embeddings) pour la recherche s√©mantique avec **des donn√©es classiques** (m√©tadonn√©es) pour le filtrage et l'organisation. Contrairement aux bases de donn√©es classiques (SQL), elles sont optimis√©es pour les requ√™tes **approximate nearest neighbor (ANN)** et les recherches **hybrides**.

---

## Structure des collections

- üîπ **Collections vs Tables** :
  - En **SQL**, on utilise des **tables** avec des colonnes et des types fixes.
  - En **ChromaDB**, on utilise des **collections**, qui stockent des **vecteurs**, des **IDs**, et des **m√©tadonn√©es JSON**.
  
- üîπ **Donn√©es stock√©es** dans chaque collection :
  - **Embeddings** : repr√©sentations num√©riques (vecteurs) des donn√©es pour la recherche s√©mantique.
  - **IDs uniques** : identifiants pour r√©cup√©rer des √©l√©ments.
  - **M√©tadonn√©es** : informations compl√©mentaires sous forme de dictionnaire JSON.

- üîπ **Absence de sch√©ma rigide** :
  - Contrairement aux bases SQL, **les collections sont flexibles** : pas besoin de d√©finir √† l'avance les colonnes ou types de donn√©es.
  - Les **m√©tadonn√©es peuvent varier d‚Äôun √©l√©ment √† l‚Äôautre**.

---

## Lien entre les collections

- üîó **Pas de relations directes comme en SQL** (pas de `JOIN`) ‚Üí On simule les relations avec des **IDs crois√©s ("foreign keys")**.

- üìå **Strat√©gies pour g√©rer les relations** :
  - Ajouter un **champ ID de r√©f√©rence** dans les m√©tadonn√©es (ex: `"author_id": "auteur_1"` pour lier une image √† un auteur).
  - Effectuer des **requ√™tes en deux √©tapes** :
    1. Rechercher un √©l√©ment dans une collection.
    2. Utiliser son ID pour r√©cup√©rer les donn√©es associ√©es dans une autre collection.

  - Exemple d'association **1-N** (un auteur a plusieurs images) :

    ```python
    # R√©cup√©rer toutes les images d'un auteur donn√©
    collection.get(where={"author_id": "auteur_1"})
    ```

  - üìç Contrairement √† SQL, pas de **contrainte d‚Äôint√©grit√© r√©f√©rentielle** ‚Üí Il faut g√©rer manuellement la suppression et la mise √† jour des liens.

---

## M√©tadonn√©es

- üè∑Ô∏è **Stock√©es en JSON**, flexibles, et utilis√©es pour le **filtrage rapide**.
- üîç **Utilis√©es pour des recherches hybrides** :
  - **Recherche vectorielle** pour la similarit√© s√©mantique.
  - **Filtrage classique** sur des attributs sp√©cifiques.
  
- üìä **Avantages des m√©tadonn√©es** :
  - Permettent d‚Äôajouter des **cat√©gories, tags, sources, relations** aux donn√©es vectorielles.
  - Acc√©l√®rent la recherche en limitant l‚Äôespace de recherche (ex: **ne chercher que dans une cat√©gorie donn√©e**).

- ‚úÖ **Exemple de requ√™te hybride** (trouver les 3 images les plus proches d‚Äôun vecteur, mais uniquement dans la cat√©gorie "animal") :

  ```python
  collection.query(
      query_embeddings=[[0.1, 0.2, 0.3]],
      n_results=3,
      where={"category": "animal"}
  )


# 2 approches possibles

## structure classique d'une BDD

### Imports

In [9]:
import chromadb

### Cr√©ation de la base/client

In [10]:
# Cr√©ation du client et de la base locale
client = chromadb.PersistentClient(path="./chroma_db")


### Cr√©ation des collections

In [11]:
# Cr√©ation d'une collection
detection = client.get_or_create_collection("detection")
image = client.get_or_create_collection("image")
video = client.get_or_create_collection("video")

### Suppression des collections

In [12]:
# Suppression d'une collection
#client.delete_collection("collection")

### Ajout de donn√©es √† une collection

In [13]:
# TODO : ajout de cat√©gories obligatoires pour les collections

# Ajout de documents avec vecteurs + m√©tadonn√©es
image.add(
    ids=["1"],
    embeddings=[[0.1, 0.2, 0.3]],
    metadatas=[{"num_frame": "1", "nom_image": "frame001.jpg"}]
)

### Affichage de l'ensemble

In [14]:
# R√©cup√©rer toutes les donn√©es (ids, embeddings, metadatas)
all_data = image.get()

# Afficher tout le contenu
for i in range(len(all_data["ids"])):
    print(f"üîπ ID: {all_data['ids'][i]}")
    print(f"üß† Embedding: {all_data['embeddings'][i]}")
    print(f"üìå M√©tadonn√©es: {all_data['metadatas'][i]}")
    print("-" * 40)


üîπ ID: 1


TypeError: 'NoneType' object is not subscriptable

### Requ√™tes

In [None]:
# D√©finition du vecteur de requ√™te
query_vector = [0.15, 0.25, 0.35]

# Recherche hybride (similitude vectorielle + filtre sur la cat√©gorie)
results = collection.query(
    query_embeddings=[query_vector],
    n_results=1,  # Nombre de r√©sultats souhait√©s
    where={"category": "tech"}  # Filtrage par m√©tadonn√©e
)

print("üîç R√©sultats de la recherche :", results)


üîç R√©sultats de la recherche : {'ids': [['1']], 'embeddings': None, 'documents': [[None]], 'uris': None, 'data': None, 'metadatas': [[{'category': 'tech', 'title': 'Doc1'}]], 'distances': [[0.007499998360872616]], 'included': [<IncludeEnum.distances: 'distances'>, <IncludeEnum.documents: 'documents'>, <IncludeEnum.metadatas: 'metadatas'>]}


## regroupement de toutes les variables en 1 table

In [15]:
import chromadb

In [16]:
# Cr√©ation du client et de la base locale
client = chromadb.PersistentClient(path="./chroma_db")

In [17]:
# Cr√©ation d'une collection
detection = client.get_or_create_collection("detection")

In [None]:
# TODO : ajout de cat√©gories obligatoires pour les collections

# Ajout de documents avec vecteurs + m√©tadonn√©es
detection.add(
    ids=["1"],
    embeddings=[[0.1, 0.2, 0.3]],
    metadatas=[{
        "nom_image": "frame001.jpg",
        "num_frame": "1", 
        "nom_video": "video001.mp4",
        "nb_frames_tot": "150",
        "fps": "15",
        "resolution": "1920x1080",
        "class_name": "person",
        "x":"400",
        "y":"200",
        "height":"400",
        "width":"100"}]
)

# REFLEXION : on a une ligne par objet d√©tect√©, alors qu'il faudrait une ligne par frame 


In [None]:
# R√©cup√©rer toutes les donn√©es (ids, embeddings, metadatas)
all_data = image.get()

# Afficher tout le contenu
for i in range(len(all_data["ids"])):
    print(f"üîπ ID: {all_data['ids'][i]}")
    print(f"üß† Embedding: {all_data['embeddings'][i]}")
    print(f"üìå M√©tadonn√©es: {all_data['metadatas'][i]}")
    print("-" * 40)


In [None]:
# D√©finition du vecteur de requ√™te
query_vector = [0.15, 0.25, 0.35]

# Recherche hybride (similitude vectorielle + filtre sur la cat√©gorie)
results = collection.query(
    query_embeddings=[query_vector],
    n_results=1,  # Nombre de r√©sultats souhait√©s
    where={"category": "tech"}  # Filtrage par m√©tadonn√©e
)

print("üîç R√©sultats de la recherche :", results)
