# üîç Construction de l'Index FAISS

Cr√©ation de l'index vectoriel FAISS pour la recherche s√©mantique rapide.

**√âtapes :**

1. Chargement des embeddings
2. Construction de l'index FAISS
3. Test de recherche
4. Export de l'index


## 1Ô∏è‚É£ Configuration


In [4]:
import json
import numpy as np
from pathlib import Path

import faiss
from sentence_transformers import SentenceTransformer

from src.config.constants import PROCESSED_DATA_DIR

print("‚úÖ Configuration OK")

‚úÖ Configuration OK


## 2Ô∏è‚É£ Chargement des Donn√©es


In [5]:
embeddings_dir = PROCESSED_DATA_DIR / "embeddings"

# Charger embeddings
embeddings_path = embeddings_dir / "embeddings.npy"
embeddings = np.load(embeddings_path)

# Charger m√©tadonn√©es
metadata_path = embeddings_dir / "metadata.json"
with open(metadata_path, "r", encoding="utf-8") as f:
    metadata = json.load(f)

# Charger documents
documents_path = PROCESSED_DATA_DIR / "rag_documents.json"
with open(documents_path, "r", encoding="utf-8") as f:
    documents = json.load(f)

print(f"üìä {len(embeddings)} embeddings charg√©s")
print(f"üìê Dimension : {embeddings.shape[1]}")
print(f"üìö {len(documents)} documents charg√©s")

üìä 497 embeddings charg√©s
üìê Dimension : 1024
üìö 497 documents charg√©s


## 3Ô∏è‚É£ Construction de l'Index FAISS

Utilisation de **IndexFlatL2** pour une recherche exacte.

**Dimensions support√©es :**

- Mistral : 1024
- SentenceTransformers : 768 (ou variable selon le mod√®le)


In [6]:
# Dimension des embeddings
dimension = embeddings.shape[1]

# Cr√©er l'index FAISS
# IndexFlatL2 : recherche exacte par distance L2
index = faiss.IndexFlatL2(dimension)

# Normaliser pour similarit√© cosinus (optionnel)
faiss.normalize_L2(embeddings)

# Ajouter les vecteurs √† l'index
index.add(embeddings)

print(f"‚úÖ Index FAISS cr√©√©")
print(f"üìä Nombre de vecteurs : {index.ntotal}")
print(f"üìê Dimension : {index.d}")

‚úÖ Index FAISS cr√©√©
üìä Nombre de vecteurs : 497
üìê Dimension : 1024


## 4Ô∏è‚É£ Test de Recherche


In [7]:
from src.config.settings import settings

In [8]:
# Classe d'encodage unifi√©e (copie du notebook 03)
from mistralai import Mistral
from sentence_transformers import SentenceTransformer


class QueryEncoder:
    """Encodeur de requ√™tes unifi√©."""

    def __init__(self, provider: str, model_name: str):
        self.provider = provider
        self.model_name = model_name

        print(f"üîÑ Chargement : provider={provider}, model={model_name}")

        if provider == "mistral":
            self.client = Mistral(api_key=settings.mistral_api_key)
        else:
            self.model = SentenceTransformer(model_name)

        print("‚úÖ Mod√®le charg√©")

    def encode(self, text: str) -> np.ndarray:
        """Encode un texte en vecteur."""
        if self.provider == "mistral":
            response = self.client.embeddings.create(model=self.model_name, inputs=[text])
            return np.array([response.data[0].embedding], dtype=np.float32)
        else:
            return self.model.encode([text], convert_to_numpy=True)


# Charger l'encodeur avec le bon provider
provider = metadata.get("provider", "sentence-transformers")
model_name = metadata["model_name"]

encoder = QueryEncoder(provider, model_name)

üîÑ Chargement : provider=mistral, model=mistral-embed
‚úÖ Mod√®le charg√©


In [9]:
def search_events(query: str, top_k: int = 5):
    """Recherche les √©v√©nements les plus similaires √† la requ√™te."""

    # Encoder la requ√™te avec le bon provider
    query_embedding = encoder.encode(query)
    faiss.normalize_L2(query_embedding)

    # Recherche dans l'index
    distances, indices = index.search(query_embedding, top_k)

    # Retourner les r√©sultats
    results = []
    for i, (idx, dist) in enumerate(zip(indices[0], distances[0])):
        doc = documents[idx]
        results.append(
            {
                "rank": i + 1,
                "distance": float(dist),
                "similarity": float(1 - dist),  # Conversion distance -> similarit√©
                "title": doc["title"],
                "city": doc["metadata"]["city"],
                "url": doc["metadata"]["url"],
                "content": doc["content"][:200] + "...",
            }
        )

    return results


print("‚úÖ Fonction de recherche d√©finie")

‚úÖ Fonction de recherche d√©finie


In [10]:
# Test 1 : Recherche de concerts
print("üîç Test 1 : 'concert de musique classique'\n")
results = search_events("concert de musique classique", top_k=3)

for result in results:
    print(f"#{result['rank']} - Similarit√©: {result['similarity']:.3f}")
    print(f"   Titre: {result['title']}")
    print(f"   Ville: {result['city']}")
    print()

üîç Test 1 : 'concert de musique classique'

#1 - Similarit√©: 0.468
   Titre: Rouvrir le monde : Documentaire √† la maison de la musique des 15-16 ¬´¬†Notre enfance¬†¬ª
   Ville: Marseille

#2 - Similarit√©: 0.448
   Titre: M√âLODIES ET MYST√àRES DES HAUTS LIEUX DE LA MUSIQUE
   Ville: Marseille

#3 - Similarit√©: 0.442
   Titre: Pauses musicales
   Ville: Marseille



In [11]:
# Test 2 : Recherche d'expositions
print("üîç Test 2 : 'exposition art contemporain'\n")
results = search_events("exposition art contemporain", top_k=3)

for result in results:
    print(f"#{result['rank']} - Similarit√©: {result['similarity']:.3f}")
    print(f"   Titre: {result['title']}")
    print(f"   Ville: {result['city']}")
    print()

üîç Test 2 : 'exposition art contemporain'

#1 - Similarit√©: 0.531
   Titre: Exposition d'art contemporain
   Ville: Marseille

#2 - Similarit√©: 0.490
   Titre: Exposition
   Ville: Marseille

#3 - Similarit√©: 0.449
   Titre: Exposition "Hors Site (mais pas hors sol)"
   Ville: Marseille



In [12]:
# Test 3 : Recherche par ville
print("üîç Test 3 : '√©v√©nement √† Marseille'\n")
results = search_events("√©v√©nement √† Marseille", top_k=3)

for result in results:
    print(f"#{result['rank']} - Similarit√©: {result['similarity']:.3f}")
    print(f"   Titre: {result['title']}")
    print(f"   Ville: {result['city']}")
    print()

üîç Test 3 : '√©v√©nement √† Marseille'

#1 - Similarit√©: 0.599
   Titre: "Si Victor m'√©tait cont√©"
   Ville: Marseille

#2 - Similarit√©: 0.587
   Titre: Rendez-vous aux jardins de la Citadelle de Marseille
   Ville: Marseille

#3 - Similarit√©: 0.586
   Titre: EXPOSITION du concours d'id√©e "Marseille ville r√©cr√©ative"
   Ville: Marseille



## 5Ô∏è‚É£ Statistiques de Performance


In [13]:
import time

# Benchmark de vitesse
test_queries = [
    "concert jazz",
    "th√©√¢tre enfants",
    "festival musique",
    "exposition peinture",
    "atelier cr√©atif",
]

times = []
for query in test_queries:
    start = time.time()
    results = search_events(query, top_k=10)
    elapsed = time.time() - start
    times.append(elapsed)

avg_time = sum(times) / len(times)

print("‚ö° Performance de recherche :")
print(f"  Temps moyen : {avg_time * 1000:.2f} ms")
print(f"  Recherches/sec : {1 / avg_time:.2f}")

‚ö° Performance de recherche :
  Temps moyen : 446.40 ms
  Recherches/sec : 2.24


## 6Ô∏è‚É£ Export de l'Index


In [2]:
from src.config.constants import PROCESSED_DATA_DIR


In [14]:
# Cr√©er le dossier index
index_dir = PROCESSED_DATA_DIR / "faiss_index"
index_dir.mkdir(exist_ok=True)

# Export index FAISS
index_path = index_dir / "events.index"
faiss.write_index(index, str(index_path))

# Export configuration
config_path = index_dir / "config.json"
config = {
    "model_name": model_name,
    "index_type": "IndexFlatL2",
    "dimension": dimension,
    "num_vectors": index.ntotal,
    "normalized": True,
    "documents_path": str(documents_path),
}

with open(config_path, "w", encoding="utf-8") as f:
    json.dump(config, f, ensure_ascii=False, indent=2)

print(f"üíæ Index FAISS : {index_path}")
print(f"üíæ Configuration : {config_path}")
print(f"\n‚úÖ Export termin√© !")
print(f"\n‚û°Ô∏è Prochaine √©tape : Notebook 05 - Test du syst√®me RAG complet")

üíæ Index FAISS : /Users/ppluton/Documents/Repositories/OC7---Projet-RAG-Assistant-Intelligent-Events/data/processed/faiss_index/events.index
üíæ Configuration : /Users/ppluton/Documents/Repositories/OC7---Projet-RAG-Assistant-Intelligent-Events/data/processed/faiss_index/config.json

‚úÖ Export termin√© !

‚û°Ô∏è Prochaine √©tape : Notebook 05 - Test du syst√®me RAG complet
