# 02 - Building the vector database

Ce notebook a pour objectif d‚Äôindexer les chunks extraits des th√®ses de l‚Äô√âcole nationale des chartes dans des bases vectorielles, en suivant les configurations sp√©cifi√©es dans le fichier `config.yml`.

Dans le cadre d'une architecture RAG, cette √©tape correspond √† la mise en place du composant Retriever.

> Dans le notebook pr√©c√©dent, nous avons pr√©par√© les chunks selon une strat√©gie adapt√©e √† notre cas d‚Äôusage et stock√© dans un fichier csv.

Une fois les chunks encod√©s (embedded), ils sont stock√©s dans une base de donn√©es vectorielle. Lorsqu‚Äôun utilisateur saisit une requ√™te, celle-ci est √† son tour encod√©e par le m√™me mod√®le, puis compar√©e aux vecteurs pr√©sents dans la base pour identifier les documents les plus similaires.

Le d√©fi technique principal est donc le suivant :

> √âtant donn√© un vecteur de requ√™te, retrouver rapidement ses **k plus proches voisins** dans la base vectorielle, c‚Äôest-√†-dire les k documents les plus pertinents.

In [1]:
## Imports globaux
import os
import pandas as pd
import numpy as np
import pickle
import matplotlib.pyplot as plt
from utils.io_utils import read_yaml
from utils.vector_store import VectorDB
import umap.umap_ as umap
import plotly.express as px
import joblib
import warnings
warnings.filterwarnings("ignore")

In [2]:
## Chargement de la configuration
config = read_yaml("../config.yml")
data_path = "../data/raw/encpos_chunked_tok_512_51.csv"
defaults = config.get("defaults", {})

In [3]:
## Chargement des donn√©es √† indexer
if not os.path.exists(data_path):
    raise FileNotFoundError(f"Fichier introuvable : {data_path}. Lancez d'abord le notebook de chunking.")
df = pd.read_csv(data_path, sep="\t")
print(f"Nombre de chunks √† indexer : {len(df)}")

Nombre de chunks √† indexer : 39377


On prepare les configurations d'indexation vectorielle √† partir du fichier de configuration `config.yml`.

In [4]:
## G√©n√©ration des configurations d'indexation
vector_indexing = []
for entry in config.get("vector_indexing", []):
    model_id = entry["model_id"]
    model = next((m for m in config["embedding_models"] if m["id"] == model_id), None)
    if not model:
        raise ValueError(f"Mod√®le non trouv√© : {model_id}")

    for backend in entry["backends"]:
        suffix = f"{model_id}_{backend}"
        name = f"{model['name']} - {backend.upper()}"
        collection_name = f"{defaults.get('collection_prefix', 'encpos')}_{model_id}"
        path = os.path.join(defaults.get("base_path", "data/vectordb"), suffix)

        vector_indexing.append({
            "name": name,
            "backend": backend,
            "embedding_model": model["model_path"],
            "metric": defaults.get("metric", "cosine"),
            "text_column": defaults.get("text_column", "full_chunk"),
            "metadata_columns": defaults.get("metadata_columns", []),
            "path": path,
            "qdrant_collection_name": collection_name,
            "k": defaults.get("k", 10),
            "force_rebuild": defaults.get("force_rebuild", False)
        })


Pour indexer efficacement nos donn√©es dans une base vectorielle contenant potentiellement des milliers de documents, il est n√©cessaire de choisir deux √©l√©ments cl√©s :

- Une **m√©trique de distance** pour comparer les vecteurs (ex. similarit√© cosinus, distance euclidienne etc.) ;

- Un **algorithme de recherche des plus proches voisins** (nearest neighbors search) pour retrouver rapidement les documents pertinents.

Dans la cellule suivante nous avons mis en place une boucle principale qui construit une base vectorielle pour chaque configuration d√©finie dans le fichier `config.ym`l.
L‚Äôobjectif est de tester diff√©rentes combinaisons de mod√®les d‚Äôembeddings et de backends de stockage.

Les deux backends actuellement pris en charge sont :

- Faiss : tr√®s rapide pour l‚Äôindexation et la recherche, mais les filtres sur les m√©tadonn√©es sont limit√©s ;

- LanceDB : plus lent √† l‚Äôindexation, mais permet des requ√™tes complexes sur les m√©tadonn√©es par exemple en SQL.

Nous avons choisi d‚Äôutiliser la similarit√© cosinus comme m√©trique de comparaison entre les vecteurs. Elle mesure l‚Äôangle entre deux vecteurs, ce qui permet de comparer leur direction ind√©pendamment de leur norme. Cela n√©cessite de normaliser tous les vecteurs (c‚Äôest-√†-dire de leur donner une norme unitaire) avant l‚Äôindexation ou la recherche.

Pour faciliter l‚Äôindexation, nous avons d√©velopp√© une abstraction Python appel√©e `VectorDB` qui prend en charge :

- La normalisation des vecteurs

- La cr√©ation des bases vectorielles et leur persistance

- L‚Äôindexation des embeddings

- La recherche

Cette abstraction nous permet de comparer diff√©rents mod√®les et backends de mani√®re uniforme, et de les √©valuer dans des conditions √©quitables.



In [5]:
%%time
## Boucle principale d‚Äôindexation
# 2h55 pour indexer les chunks dans 6 vectorstore
# UMAP :
UMAP_PROJECTION = False
#df = df.sample(n=50)

def get_stored_vectors(db: VectorDB) -> np.ndarray:
    if db.backend == "faiss":
        # db.index.index est un IndexFlat ou autre structure FAISS
        return np.array(db.index.index.reconstruct_n(0, db.index.index.ntotal))

    elif db.backend == "lancedb":
        df = db.index.to_pandas()
        return np.vstack(df["vector"].values)  # Chaque vecteur est une liste ‚Üí stack en matrice

    else:
        raise ValueError(f"Backend {db.backend} non support√©")

for conf in vector_indexing:
    print("\n--- Indexation en cours ---")
    print("Nom:", conf["name"])

    db = VectorDB(
        backend=conf["backend"],
        embedding_model=conf["embedding_model"],
        metric=conf["metric"],
        path=conf["path"],
        k=conf["k"],
        force_rebuild=conf["force_rebuild"]
    )


    db.add_from_dataframe(
        df=df,
        text_column=conf["text_column"],
        metadata_columns=conf["metadata_columns"]
    )

    db.save()
    print("üì¶ Indexation termin√©e pour:", conf["name"])

    if UMAP_PROJECTION:
        # G√©n√©ration de la projection UMAP
        print("‚Üí G√©n√©ration de la projection UMAP pour:", conf["name"])
        umap_path = os.path.join("scripts", conf["path"], "projection_umap.npy")
        labels_path = os.path.join("scripts", conf["path"], "projection_labels.pkl")
        if os.path.isfile(umap_path) and os.path.isfile(labels_path):
            print("üîÅ Projection UMAP d√©j√† g√©n√©r√©e, chargement depuis le disque.")
        else:
            print("üõ†Ô∏è Calcul de la projection UMAP...")
            vectors = get_stored_vectors(db)
            reducer = umap.UMAP(n_components=2, random_state=42, n_jobs=-1)
            reduced = reducer.fit_transform(np.array(vectors))
            joblib.dump(reducer, os.path.join(conf["path"], "umap_model.joblib"))
            np.save(umap_path, reduced)
            with open(labels_path, "wb") as f:
                pickle.dump(
                    df[["author", "position_name", "year"]].to_dict("records"), f
                )
            print("‚úÖ Projection UMAP sauvegard√©e dans:", umap_path)


--- Indexation en cours ---
Nom: CamemBERT Large - LANCEDB
üì¶ Initialisation de LanceDB √† data/vectordb/camembert-large_lancedb
üÜï Table LanceDB 'camembert-large_lancedb' √† cr√©er lors de l'indexation.


Pr√©paration des documents pour lancedb: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 39377/39377 [00:01<00:00, 21462.39it/s]


üß† Cr√©ation de la table LanceDB 'camembert-large_lancedb' √† partir des documents...
üì¶ Indexation termin√©e pour: CamemBERT Large - LANCEDB

--- Indexation en cours ---
Nom: CamemBERT Base - LANCEDB
üì¶ Initialisation de LanceDB √† data/vectordb/camembert-base_lancedb
üÜï Table LanceDB 'camembert-base_lancedb' √† cr√©er lors de l'indexation.


Pr√©paration des documents pour lancedb: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 39377/39377 [00:01<00:00, 37788.02it/s]


üß† Cr√©ation de la table LanceDB 'camembert-base_lancedb' √† partir des documents...
üì¶ Indexation termin√©e pour: CamemBERT Base - LANCEDB

--- Indexation en cours ---
Nom: Multilingual DistilUSE - LANCEDB
üì¶ Initialisation de LanceDB √† data/vectordb/multilingual_lancedb
üÜï Table LanceDB 'multilingual_lancedb' √† cr√©er lors de l'indexation.


Pr√©paration des documents pour lancedb: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 39377/39377 [00:01<00:00, 36957.65it/s]


üß† Cr√©ation de la table LanceDB 'multilingual_lancedb' √† partir des documents...
üì¶ Indexation termin√©e pour: Multilingual DistilUSE - LANCEDB
CPU times: user 4min 24s, sys: 3min 8s, total: 7min 32s
Wall time: 52min 2s


## Visualisation des r√©sultats

### Carte UMAP des embeddings

Durant la boucle d‚Äôindexation, nous avons √©galement g√©n√©r√© un mod√®le de projection des embeddings pour chaque configuration. Cette projection permet de visualiser la distribution des chunks dans un espace 2D via un algorithme de r√©duction de dimensionnalit√© des vecteurs d'embeddings.

Nous utilisons ici UMAP (Uniform Manifold Approximation and Projection) mais il en existe d'autres comme PCA, t-SNE, PaCMAP etc.

Sur le graphique ci-dessous, on observe une repr√©sentation spatiale des documents de la base de connaissances.
Chaque point correspond √† un document, repr√©sent√© par son embedding vectoriel, qui encode son contenu s√©mantique.

L'intution ici est que plus deux documents sont proches en termes de sens, plus leurs vecteurs devraient l‚Äô√™tre √©galement dans l‚Äôespace vectoriel.

L‚Äôembedding de la requ√™te utilisateur est √©galement repr√©sent√© sur le graphique.

L‚Äôobjectif ici est de retrouver les k documents dont le sens est le plus proche de cette requ√™te.

Les projections nous aident √† visualiser la distribution des documents dans l‚Äôespace vectoriel et √† identifier les √©ventuels clusters ou regroupements de chun similaires

In [None]:
## Exemple d‚Äôutilisation et visualisation
example_conf = vector_indexing[0]
print(
    f"\nüîç Configuration d'exemple : {example_conf['name']}\n"
)

In [None]:
if example_conf:
        print(f"\nüéØ Exemple : utilisation du retriever {example_conf['name']}")

        db = VectorDB(
            backend=example_conf["backend"],
            embedding_model=example_conf["embedding_model"],
            metric=example_conf["metric"],
            path=example_conf["path"],
            k=5,
            force_rebuild=False
        )

        query = "Quel est le temps de L√©on Marchand au 400m papillon aux Jeux Olympiques de Paris de 2025 ?"
        results = db.query(query)

        print("\nüß† R√©sultats de la requ√™te :")
        for i, r in enumerate(results[:5]):
            print(i, r)

        print(f"\nüé® Affichage de la projection UMAP :{example_conf['name']}")
        umap_path = os.path.join(example_conf["path"], "projection_umap.npy")
        labels_path = os.path.join(example_conf["path"], "projection_labels.pkl")
        # load previously fitted UMAP reducer
        reducer = joblib.load(os.path.join(example_conf["path"], "umap_model.joblib"))
        if os.path.exists(umap_path) and os.path.exists(labels_path):
            emb_2d = np.load(umap_path)
            with open(labels_path, "rb") as f:
                labels = pickle.load(f)

            # Requ√™te utilisateur (embedding + projection)
            user_embedding = db.embed_query(query)


            query_proj = reducer.transform(reducer.transform(np.array(user_embedding).reshape(1, -1)))

            # Cr√©ation du DataFrame pour Plotly
            df_plot = pd.DataFrame.from_dict(
                [
                    {
                        "x": emb_2d[i, 0],
                        "y": emb_2d[i, 1],
                        "source": f"{labels[i].get('author', 'Inconnu')}",
                        "extract": f"{labels[i].get('position_name', '')} : {labels[i].get('text', '')[:100]}...",
                        "symbol": "circle",
                        "size_col": 4,
                    }
                    for i in range(len(labels))
                ]
                + [
                    {
                        "x": query_proj[0, 0],
                        "y": query_proj[0, 1],
                        "source": "User query",
                        "extract": query,
                        "symbol": "star",
                        "size_col": 100,
                    }
                ]
            )

            # Visualisation avec Plotly
            fig = px.scatter(
                df_plot,
                x="x",
                y="y",
                color="source",
                hover_data=["extract"],
                size="size_col",
                symbol="symbol",
                color_discrete_map={"User query": "black"},
                width=1000,
                height=700,
            )
            fig.update_traces(
                marker=dict(opacity=1, line=dict(width=0, color="DarkSlateGrey")),
                selector=dict(mode="markers"),
            )
            fig.update_layout(
                legend_title_text="<b>Chunk source</b>",
                title=f"<b>2D Projection of Positions de th√®ses embeddings via UMAP ({example_conf['embedding_model']})</b>",
                plot_bgcolor="white",
            )
            fig.show()
        else:
            print("‚ö†Ô∏è Fichiers de projection manquants. Relancer l‚Äô√©tape UMAP si besoin.")


‚û°Ô∏è Notebook suivant : [03-assemble_rag.ipynb](./03-assemble_rag.ipynb)