# 🧠 Création des embeddings avec SentenceTransformers et sauvegarde dans un index FAISS

In [1]:
# Importer les bibliothèques nécessaires
from sentence_transformers import SentenceTransformer
import pandas as pd
import numpy as np
from tqdm import tqdm
import os

# 📁 Chemin vers les chunks enrichis
chunks_path = "../data/ready_for_embedding/chunks_with_metadata.csv"
df = pd.read_csv(chunks_path)

print(f"{len(df)} chunks chargés.")
df.head()


  from .autonotebook import tqdm as notebook_tqdm


4988 chunks chargés.


Unnamed: 0,source,page,chunk_id,text,length,theme,niveau,type
0,100 idees pour enseigner les ha - Mehdi Liratni,2,100 idees pour enseigner les ha - Mehdi Liratn...,Dr Mehdi Liratni Préface du Pr René Pry 100 ID...,18,relations sociales,facile,inconnu
1,100 idees pour enseigner les ha - Mehdi Liratni,3,100 idees pour enseigner les ha - Mehdi Liratn...,La version numérique de cet ouvrage a été réal...,30,autisme,facile,inconnu
2,100 idees pour enseigner les ha - Mehdi Liratni,4,100 idees pour enseigner les ha - Mehdi Liratn...,SOMMAIRE Préface Remerciements INTRODUCTION HA...,171,relations sociales,complexe,définition
3,100 idees pour enseigner les ha - Mehdi Liratni,5,100 idees pour enseigner les ha - Mehdi Liratn...,CHAPITRE II COMPÉTENCES SOCLES DU COMPORTEMENT...,212,émotions,complexe,méthode
4,100 idees pour enseigner les ha - Mehdi Liratni,6,100 idees pour enseigner les ha - Mehdi Liratn...,Idée 26 Les 4 règles et objectifs importants d...,236,relations sociales,complexe,action


# 🧠 Choix du modèle d’embedding

    ✅ paraphrase-multilingual-MiniLM-L12-v2

Ce modèle paraît adéquat pour un corpus francophone et sensible comme le notre, car il est:
    - multilingue (français inclus)
    - léger et rapide
    - compatible avec sentence-transformers

In [2]:
# Chargement du modèle d’embedding

model_name = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
model = SentenceTransformer(model_name)
print(f"Modèle '{model_name}' chargé.")

Modèle 'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2' chargé.


In [3]:
# Génération des embeddings

texts = df["text"].tolist()
embeddings = model.encode(texts, show_progress_bar=True)


Batches: 100%|██████████| 156/156 [01:39<00:00,  1.57it/s]


In [4]:
# --- Sauvegarde des embeddings et métadonnées ---

# 📁 Dossier de sortie
os.makedirs("../data/embeddings", exist_ok=True)

# Sauvegarde des vecteurs
np.save("../data/embeddings/chunks_embeddings.npy", embeddings)

# Sauvegarde des métadonnées
df.to_csv("../data/embeddings/chunks_metadata.csv", index=False)

print("✅ Embeddings et métadonnées sauvegardés.")


✅ Embeddings et métadonnées sauvegardés.


In [5]:
# Sanity check
print("Dimensions des embeddings :", embeddings.shape)
print("Exemple de vecteur :", embeddings[0][:10])


Dimensions des embeddings : (4988, 384)
Exemple de vecteur : [-0.15932588  0.17564173  0.03190022  0.01267263  0.03710037 -0.07132272
  0.03162193  0.0588747  -0.00077504  0.14136818]
