# üß† 3) Embeddings locaux avec Ollama + Stockage vectoriel avec FAISS (Meta)

On utilise **mxbai-embed-large** :

- mod√®le open-source
- rapide
- optimis√© CPU
- 1024 dimensions

‚û° Chaque chunk est transform√© en vecteur num√©rique.

Gr√¢ce √† √ßa, le syst√®me peut mesurer la similarit√© conceptuelle, pas juste les mots.

On utilise **FAISS**, la technologie de Meta pour :

- stocker les embeddings
- effectuer des recherches rapides ~O(log n)
- g√©rer des milliers de docs

üëâ Objectifs atteint : 
- `conversion du savoir ESILV en vecteurs utilisables par un moteur de recherche s√©mantique.`
- `vector store professionnel utilis√© dans les syst√®mes RAG modernes.`

In [1]:
import os
import json
import faiss
import numpy as np
import ollama

In [2]:
# Fonction d‚Äôembedding (Ollama)

def embed_text(text):
    resp = ollama.embeddings(
        model="mxbai-embed-large",
        prompt=text
    )
    return np.array(resp["embedding"], dtype="float32")

In [3]:
# Load FAISS ou cr√©er un nouvel index

INDEX_PATH = "vector_store/faiss_index.bin"
MAPPING_PATH = "vector_store/mapping.json"

# Dimensions embed (mxbai-embed-large = 1024)
EMBED_DIM = 1024  

def load_or_create_faiss():
    if os.path.exists(INDEX_PATH):
        index = faiss.read_index(INDEX_PATH)
        print("Index FAISS charg√©.")
    else:
        index = faiss.IndexFlatL2(EMBED_DIM)
        print("Nouvel index FAISS cr√©√©.")

    # mapping id -> infos
    if os.path.exists(MAPPING_PATH):
        with open(MAPPING_PATH, "r", encoding="utf-8") as f:
            mapping = json.load(f)
    else:
        mapping = {}

    return index, mapping

In [4]:
# Fonction : encoder UN fichier chunk JSON

def embed_chunk_file(filepath, index, mapping):
    print(f"‚û° Traitement de : {filepath}")

    with open(filepath, "r", encoding="utf-8") as f:
        chunks = json.load(f)

    for chunk in chunks:
        text = chunk.get("content", "")
        if not text.strip():
            continue

        vec = embed_text(text).reshape(1, -1)

        # ajouter √† FAISS
        idx_id = index.ntotal
        index.add(vec)

        # enregistrer le mapping
        mapping[str(idx_id)] = {
            "title": chunk.get("title"),
            "content": chunk.get("content"),
            "rubric": chunk.get("rubric"),
            "url": chunk.get("url"),
            "source_file": os.path.basename(filepath)
        }

    print(f"‚úî Embeddings ajout√©s depuis : {filepath}")

In [5]:
# Sauvegarde automatique

def save_all(index, mapping):
    faiss.write_index(index, INDEX_PATH)
    with open(MAPPING_PATH, "w", encoding="utf-8") as f:
        json.dump(mapping, f, indent=2, ensure_ascii=False)
    print("üíæ FAISS + mapping sauvegard√©s.")

In [23]:
os.listdir("../../data/chunks_esilv")

['chunks_admissions.json',
 'chunks_entreprises-debouches.json',
 'chunks_formations.json',
 'chunks_international.json',
 'chunks_lecole.json',
 'chunks_recherche.json']

In [24]:
# Pipeline complet : fichier par fichier

def run_embedding_pipeline():
    index, mapping = load_or_create_faiss()

    for fn in os.listdir("../../data/chunks_esilv"):
        if not fn.endswith(".json"):
            continue

        embed_chunk_file(
            filepath=os.path.join("../../data/chunks_esilv", fn),
            index=index,
            mapping=mapping
        )

        save_all(index, mapping)

    print("\nüéâ Tous les embeddings ont √©t√© g√©n√©r√©s et stock√©s dans FAISS.")

In [25]:
run_embedding_pipeline()

Nouvel index FAISS cr√©√©.
‚û° Traitement de : ../../data/scraping/chunks_esilv\chunks_admissions.json
‚úî Embeddings ajout√©s depuis : ../../data/scraping/chunks_esilv\chunks_admissions.json
üíæ FAISS + mapping sauvegard√©s.
‚û° Traitement de : ../../data/scraping/chunks_esilv\chunks_entreprises-debouches.json
‚úî Embeddings ajout√©s depuis : ../../data/scraping/chunks_esilv\chunks_entreprises-debouches.json
üíæ FAISS + mapping sauvegard√©s.
‚û° Traitement de : ../../data/scraping/chunks_esilv\chunks_formations.json
‚úî Embeddings ajout√©s depuis : ../../data/scraping/chunks_esilv\chunks_formations.json
üíæ FAISS + mapping sauvegard√©s.
‚û° Traitement de : ../../data/scraping/chunks_esilv\chunks_international.json
‚úî Embeddings ajout√©s depuis : ../../data/scraping/chunks_esilv\chunks_international.json
üíæ FAISS + mapping sauvegard√©s.
‚û° Traitement de : ../../data/scraping/chunks_esilv\chunks_lecole.json
‚úî Embeddings ajout√©s depuis : ../../data/scraping/chunks_esilv\chunks_

In [26]:
# Tester la similarit√© (retrieval)

def search(query, k=5):
    index, mapping = load_or_create_faiss()
    q_vec = embed_text(query).reshape(1, -1)
    D, I = index.search(q_vec, k)

    results = []
    for dist, idx in zip(D[0], I[0]):
        results.append({
            "score": float(dist),
            "title": mapping[str(idx)]["title"],
            "content": mapping[str(idx)]["content"][:300] + "...",
            "url": mapping[str(idx)]["url"]
        })

    return results

In [27]:
search("Comment int√©grer l'ESILV apr√®s un bac+2 ?", k=3)

Index FAISS charg√©.


[{'score': 149.9091339111328,
  'title': 'admissions ‚Äì Introduction',
  'content': 'Les deux flux principaux d‚Äôint√©gration √† l‚ÄôESILV sont le Concours AVENIR BAC en admission post-bac via la proc√©dure Parcoursup, et le concours AVENIR PREPAS apr√®s une classe pr√©paratoire aux grandes √©coles.. Hors ces proc√©dures sp√©cifiques aux √©tudiants de Terminale G√©n√©rale et CPGE, vous pouvez int...',
  'url': 'https://www.esilv.fr/admissions/'},
 {'score': 162.86717224121094,
  'title': 'Concours AVENIR BAC 2026 ‚Äì Full text',
  'content': 'Sur Parcoursup, pour l‚ÄôESILV, vous devez s√©lectionner les voeux intitul√©s (en fonction de vos sp√©cialit√©s) : Formation d‚Äôing√©nieur Bac + 5 ‚Äì Bac s√©rie g√©n√©rale avec la sp√©cialit√© Maths en Terminale + une sp√©cialit√© scientifique Formation d‚Äôing√©nieur Bac + 5 ‚Äì Bac S√©rie g√©n√©rale avec la sp√©cialit√© Ma...',
  'url': 'https://www.esilv.fr/admissions/concours-avenir/'},
 {'score': 177.98876953125,
  'title': 'Acqu√©rir des