# S10 ‚Äî Embeddings & Moteurs de Recherche Vectorielle (RAG Intro)

## üéØ Objectifs
- Comprendre les embeddings et leur cr√©ation
- Ma√Ætriser la recherche de similarit√© (nearest neighbour)
- Impl√©menter un index FAISS local
- √âvaluer recall et precision du retrieval

## üìã Contenu
1. Cr√©ation d'embeddings
2. Similarity search et m√©triques de distance
3. Index types (Flat, IVFPQ)
4. Impl√©mentation avec FAISS
5. √âvaluation des performances

## 1. Installation et Configuration

In [None]:
# Installation des d√©pendances
# !pip install faiss-cpu openai sentence-transformers pandas numpy scikit-learn

In [None]:
import os
import numpy as np
import pandas as pd
import faiss
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import matplotlib.pyplot as plt
from typing import List, Tuple
import pickle

print("‚úÖ Biblioth√®ques import√©es")

## 2. Cr√©ation du Dataset

Nous allons cr√©er un dataset simul√© de documents techniques pour la d√©monstration.

In [None]:
# Dataset de documents (simul√©)
documents = [
    {"id": 1, "text": "Le machine learning est une branche de l'intelligence artificielle.", "category": "ML"},
    {"id": 2, "text": "Les r√©seaux de neurones profonds sont utilis√©s pour l'apprentissage profond.", "category": "DL"},
    {"id": 3, "text": "Python est un langage de programmation populaire pour la data science.", "category": "Programming"},
    {"id": 4, "text": "FastAPI permet de cr√©er des APIs REST rapidement avec Python.", "category": "Programming"},
    {"id": 5, "text": "Les transformers r√©volutionnent le traitement du langage naturel.", "category": "NLP"},
    {"id": 6, "text": "BERT est un mod√®le pr√©-entra√Æn√© bas√© sur l'architecture transformer.", "category": "NLP"},
    {"id": 7, "text": "Le gradient descent est un algorithme d'optimisation fondamental.", "category": "ML"},
    {"id": 8, "text": "Les embeddings capturent la s√©mantique des mots dans un espace vectoriel.", "category": "NLP"},
    {"id": 9, "text": "Docker permet de conteneuriser des applications pour un d√©ploiement facile.", "category": "DevOps"},
    {"id": 10, "text": "Kubernetes orchestre des conteneurs √† grande √©chelle.", "category": "DevOps"},
    {"id": 11, "text": "Les CNNs sont particuli√®rement efficaces pour la vision par ordinateur.", "category": "DL"},
    {"id": 12, "text": "Le fine-tuning adapte un mod√®le pr√©-entra√Æn√© √† une t√¢che sp√©cifique.", "category": "ML"},
    {"id": 13, "text": "GPT-4 est un mod√®le de langage g√©n√©ratif d√©velopp√© par OpenAI.", "category": "NLP"},
    {"id": 14, "text": "Les API REST utilisent HTTP pour communiquer entre services.", "category": "Programming"},
    {"id": 15, "text": "L'attention est le m√©canisme cl√© des architectures transformer.", "category": "DL"},
    {"id": 16, "text": "Pandas est une biblioth√®que Python pour l'analyse de donn√©es.", "category": "Programming"},
    {"id": 17, "text": "Le RAG combine retrieval et g√©n√©ration pour am√©liorer les LLMs.", "category": "NLP"},
    {"id": 18, "text": "FAISS est une biblioth√®que pour la recherche de similarit√© vectorielle.", "category": "ML"},
    {"id": 19, "text": "Les bases de donn√©es vectorielles stockent et recherchent des embeddings.", "category": "ML"},
    {"id": 20, "text": "Le tokenisation d√©coupe le texte en unit√©s traitables par les mod√®les.", "category": "NLP"},
]

df = pd.DataFrame(documents)
print(f"üìä Dataset cr√©√©: {len(df)} documents")
print(df.head())

## 3. G√©n√©ration d'Embeddings

### 3.1 Chargement du mod√®le d'embeddings

In [None]:
# Charger un mod√®le d'embeddings multilingue
# Options: 'paraphrase-multilingual-MiniLM-L12-v2', 'distiluse-base-multilingual-cased-v2'
embedding_model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

print(f"‚úÖ Mod√®le charg√©: {embedding_model.get_sentence_embedding_dimension()} dimensions")

### 3.2 Cr√©ation des embeddings

In [None]:
def create_embeddings(texts: List[str], model: SentenceTransformer) -> np.ndarray:
    """
    Cr√©er des embeddings pour une liste de textes
    """
    embeddings = model.encode(texts, show_progress_bar=True)
    return np.array(embeddings).astype('float32')

# G√©n√©rer les embeddings
texts = df['text'].tolist()
embeddings = create_embeddings(texts, embedding_model)

print(f"‚úÖ Embeddings cr√©√©s: shape = {embeddings.shape}")
print(f"   - {embeddings.shape[0]} documents")
print(f"   - {embeddings.shape[1]} dimensions")

## 4. M√©triques de Similarit√©

### 4.1 Cosine Similarity

In [None]:
def compute_cosine_similarity(embedding1: np.ndarray, embedding2: np.ndarray) -> float:
    """
    Calculer la similarit√© cosinus entre deux embeddings
    """
    return cosine_similarity([embedding1], [embedding2])[0][0]

# Exemple: Comparer deux documents
doc1_emb = embeddings[0]  # "Le machine learning..."
doc2_emb = embeddings[1]  # "Les r√©seaux de neurones..."
doc3_emb = embeddings[2]  # "Python est un langage..."

sim_1_2 = compute_cosine_similarity(doc1_emb, doc2_emb)
sim_1_3 = compute_cosine_similarity(doc1_emb, doc3_emb)

print(f"Similarit√© entre doc1 et doc2 (tous deux ML): {sim_1_2:.4f}")
print(f"Similarit√© entre doc1 et doc3 (ML vs Programming): {sim_1_3:.4f}")

### 4.2 Matrice de similarit√©

In [None]:
# Calculer la matrice de similarit√© pour les 10 premiers documents
sample_embeddings = embeddings[:10]
similarity_matrix = cosine_similarity(sample_embeddings)

# Visualiser
plt.figure(figsize=(10, 8))
plt.imshow(similarity_matrix, cmap='YlOrRd', aspect='auto')
plt.colorbar(label='Cosine Similarity')
plt.xlabel('Document ID')
plt.ylabel('Document ID')
plt.title('Matrice de Similarit√© (10 premiers documents)')
plt.xticks(range(10), [f"Doc {i+1}" for i in range(10)], rotation=45)
plt.yticks(range(10), [f"Doc {i+1}" for i in range(10)])
plt.tight_layout()
plt.show()

## 5. FAISS: Index de Recherche Vectorielle

### 5.1 Index Flat (Brute Force)

In [None]:
def create_faiss_index_flat(embeddings: np.ndarray) -> faiss.IndexFlatL2:
    """
    Cr√©er un index FAISS Flat (recherche exhaustive)
    """
    dimension = embeddings.shape[1]
    index = faiss.IndexFlatL2(dimension)  # L2 distance
    index.add(embeddings)  # Ajouter les vecteurs
    return index

# Cr√©er l'index
index_flat = create_faiss_index_flat(embeddings)

print(f"‚úÖ Index Flat cr√©√©")
print(f"   - Nombre de vecteurs: {index_flat.ntotal}")
print(f"   - Dimension: {index_flat.d}")

### 5.2 Recherche de similarit√©

In [None]:
def search_similar(query: str, index: faiss.Index, model: SentenceTransformer, 
                   df: pd.DataFrame, k: int = 5) -> pd.DataFrame:
    """
    Rechercher les k documents les plus similaires √† une query
    """
    # Cr√©er l'embedding de la query
    query_embedding = model.encode([query]).astype('float32')
    
    # Rechercher les k plus proches voisins
    distances, indices = index.search(query_embedding, k)
    
    # Cr√©er un DataFrame des r√©sultats
    results = []
    for i, (dist, idx) in enumerate(zip(distances[0], indices[0])):
        results.append({
            "rank": i + 1,
            "id": df.iloc[idx]['id'],
            "text": df.iloc[idx]['text'],
            "category": df.iloc[idx]['category'],
            "distance": dist,
            "similarity": 1 / (1 + dist)  # Approximation de similarit√©
        })
    
    return pd.DataFrame(results)

# Test de recherche
query = "Comment fonctionne le deep learning?"
print(f"üîç Query: {query}\n")

results = search_similar(query, index_flat, embedding_model, df, k=5)
print("üìä Top 5 r√©sultats:")
print(results[['rank', 'text', 'category', 'similarity']].to_string(index=False))

### 5.3 Tests avec diff√©rentes queries

In [None]:
test_queries = [
    "Qu'est-ce qu'un transformer?",
    "Comment d√©ployer une application?",
    "Python pour l'analyse de donn√©es",
    "Recherche vectorielle et embeddings"
]

for query in test_queries:
    print(f"\n{'='*80}")
    print(f"üîç Query: {query}")
    print('='*80)
    
    results = search_similar(query, index_flat, embedding_model, df, k=3)
    
    for _, row in results.iterrows():
        print(f"{row['rank']}. [{row['category']}] {row['text'][:60]}... (sim: {row['similarity']:.3f})")

## 6. Index IVFPQ (Optimis√© pour Large Scale)

### 6.1 Cr√©ation d'un index IVF (Inverted File)

In [None]:
def create_faiss_index_ivf(embeddings: np.ndarray, nlist: int = 10) -> faiss.IndexIVFFlat:
    """
    Cr√©er un index FAISS IVF (plus rapide pour large scale)
    
    Args:
        embeddings: Vecteurs √† indexer
        nlist: Nombre de clusters (voronoi cells)
    """
    dimension = embeddings.shape[1]
    
    # Cr√©er le quantizer (index flat pour les centroids)
    quantizer = faiss.IndexFlatL2(dimension)
    
    # Cr√©er l'index IVF
    index = faiss.IndexIVFFlat(quantizer, dimension, nlist)
    
    # Entra√Æner l'index (clustering)
    index.train(embeddings)
    
    # Ajouter les vecteurs
    index.add(embeddings)
    
    return index

# Pour notre petit dataset, utilisons nlist=5
index_ivf = create_faiss_index_ivf(embeddings, nlist=5)

print(f"‚úÖ Index IVF cr√©√©")
print(f"   - Nombre de vecteurs: {index_ivf.ntotal}")
print(f"   - Nombre de clusters: {index_ivf.nlist}")

### 6.2 Comparaison Flat vs IVF

In [None]:
import time

def benchmark_search(query: str, index: faiss.Index, model: SentenceTransformer, k: int = 5):
    """
    Mesurer le temps de recherche
    """
    query_embedding = model.encode([query]).astype('float32')
    
    start = time.time()
    distances, indices = index.search(query_embedding, k)
    elapsed = time.time() - start
    
    return elapsed * 1000  # en ms

# Benchmark
query = "Qu'est-ce que le machine learning?"

time_flat = benchmark_search(query, index_flat, embedding_model)
time_ivf = benchmark_search(query, index_ivf, embedding_model)

print(f"‚è±Ô∏è Temps de recherche:")
print(f"   - Flat (exact): {time_flat:.3f} ms")
print(f"   - IVF (approx): {time_ivf:.3f} ms")
print(f"   - Speedup: {time_flat/time_ivf:.2f}x")
print(f"\n‚ö†Ô∏è Note: Sur de petits datasets, Flat peut √™tre plus rapide.")
print(f"   IVF devient int√©ressant √† partir de 10k-100k+ vecteurs.")

## 7. √âvaluation: Recall et Precision

### 7.1 Cr√©ation d'un ground truth

In [None]:
# D√©finir des queries avec leurs documents pertinents attendus (ground truth)
ground_truth = [
    {
        "query": "Qu'est-ce qu'un transformer?",
        "relevant_ids": [5, 6, 15]  # Docs sur transformers, BERT, attention
    },
    {
        "query": "Comment utiliser Python?",
        "relevant_ids": [3, 4, 16]  # Docs sur Python, FastAPI, Pandas
    },
    {
        "query": "Machine learning et optimisation",
        "relevant_ids": [1, 7, 12]  # Docs sur ML, gradient descent, fine-tuning
    },
    {
        "query": "Recherche vectorielle",
        "relevant_ids": [8, 18, 19]  # Docs sur embeddings, FAISS, vector DB
    },
]

print("‚úÖ Ground truth d√©fini pour l'√©valuation")

### 7.2 Calcul de Recall@k et Precision@k

In [None]:
def evaluate_retrieval(query: str, relevant_ids: List[int], index: faiss.Index, 
                      model: SentenceTransformer, df: pd.DataFrame, k: int = 5):
    """
    Calculer Recall@k et Precision@k
    """
    # R√©cup√©rer les r√©sultats
    query_embedding = model.encode([query]).astype('float32')
    _, indices = index.search(query_embedding, k)
    
    # IDs r√©cup√©r√©s
    retrieved_ids = [df.iloc[idx]['id'] for idx in indices[0]]
    
    # Calculer les m√©triques
    relevant_retrieved = set(relevant_ids) & set(retrieved_ids)
    
    recall = len(relevant_retrieved) / len(relevant_ids) if relevant_ids else 0
    precision = len(relevant_retrieved) / k
    
    return {
        "query": query,
        "k": k,
        "relevant_ids": relevant_ids,
        "retrieved_ids": retrieved_ids,
        "relevant_retrieved": list(relevant_retrieved),
        "recall": recall,
        "precision": precision
    }

# √âvaluer toutes les queries
evaluation_results = []

for item in ground_truth:
    result = evaluate_retrieval(
        query=item["query"],
        relevant_ids=item["relevant_ids"],
        index=index_flat,
        model=embedding_model,
        df=df,
        k=5
    )
    evaluation_results.append(result)
    
    print(f"\nüîç Query: {result['query']}")
    print(f"   Relevant: {result['relevant_ids']}")
    print(f"   Retrieved: {result['retrieved_ids']}")
    print(f"   ‚úÖ Found: {result['relevant_retrieved']}")
    print(f"   üìä Recall@{result['k']}: {result['recall']:.2%}")
    print(f"   üìä Precision@{result['k']}: {result['precision']:.2%}")

### 7.3 M√©triques moyennes

In [None]:
avg_recall = np.mean([r['recall'] for r in evaluation_results])
avg_precision = np.mean([r['precision'] for r in evaluation_results])

print(f"\n{'='*80}")
print(f"üìä M√âTRIQUES MOYENNES")
print(f"{'='*80}")
print(f"Recall@5:    {avg_recall:.2%}")
print(f"Precision@5: {avg_precision:.2%}")

# Visualisation
fig, ax = plt.subplots(1, 2, figsize=(12, 4))

queries = [r['query'][:30] + '...' for r in evaluation_results]
recalls = [r['recall'] for r in evaluation_results]
precisions = [r['precision'] for r in evaluation_results]

ax[0].barh(queries, recalls, color='skyblue')
ax[0].set_xlabel('Recall@5')
ax[0].set_title('Recall par Query')
ax[0].set_xlim(0, 1)

ax[1].barh(queries, precisions, color='lightcoral')
ax[1].set_xlabel('Precision@5')
ax[1].set_title('Precision par Query')
ax[1].set_xlim(0, 1)

plt.tight_layout()
plt.show()

## 8. Sauvegarde et Chargement de l'Index

### 8.1 Sauvegarde

In [None]:
def save_index(index: faiss.Index, embeddings: np.ndarray, df: pd.DataFrame, 
               index_path: str = "faiss_index.bin", 
               data_path: str = "documents.pkl"):
    """
    Sauvegarder l'index FAISS et les donn√©es associ√©es
    """
    # Sauvegarder l'index FAISS
    faiss.write_index(index, index_path)
    
    # Sauvegarder les donn√©es (documents + embeddings)
    data = {
        "documents": df,
        "embeddings": embeddings
    }
    with open(data_path, 'wb') as f:
        pickle.dump(data, f)
    
    print(f"‚úÖ Index sauvegard√©: {index_path}")
    print(f"‚úÖ Donn√©es sauvegard√©es: {data_path}")

# Sauvegarder
save_index(index_flat, embeddings, df)

### 8.2 Chargement

In [None]:
def load_index(index_path: str = "faiss_index.bin", 
               data_path: str = "documents.pkl"):
    """
    Charger l'index FAISS et les donn√©es associ√©es
    """
    # Charger l'index
    index = faiss.read_index(index_path)
    
    # Charger les donn√©es
    with open(data_path, 'rb') as f:
        data = pickle.load(f)
    
    print(f"‚úÖ Index charg√©: {index.ntotal} vecteurs")
    print(f"‚úÖ Donn√©es charg√©es: {len(data['documents'])} documents")
    
    return index, data['documents'], data['embeddings']

# Test de chargement
loaded_index, loaded_df, loaded_embeddings = load_index()

# V√©rifier que √ßa fonctionne
test_query = "Qu'est-ce que l'IA?"
test_results = search_similar(test_query, loaded_index, embedding_model, loaded_df, k=3)
print(f"\nüîç Test query: {test_query}")
print(test_results[['rank', 'text']].to_string(index=False))

## 9. Exercices Pratiques

### Exercice 1: Ajouter de nouveaux documents
1. Cr√©er 10 nouveaux documents
2. G√©n√©rer leurs embeddings
3. Les ajouter √† l'index existant
4. Tester la recherche

### Exercice 2: Optimiser les hyperparam√®tres
1. Tester diff√©rentes valeurs de `nlist` pour IVF
2. Mesurer l'impact sur la vitesse et le recall
3. Trouver le meilleur compromis

### Exercice 3: Impl√©menter un filtre de m√©tadonn√©es
1. Modifier `search_similar` pour filtrer par cat√©gorie
2. Exemple: "Chercher uniquement dans les docs NLP"
3. Comparer les r√©sultats avec/sans filtre

### Exercice 4: √âvaluation avanc√©e
1. Impl√©menter Mean Reciprocal Rank (MRR)
2. Calculer NDCG@k
3. Comparer Flat vs IVF sur ces m√©triques

## 10. Concepts Avanc√©s

### 10.1 Types d'index FAISS

| Type | Description | Usage |
|------|-------------|-------|
| **Flat** | Brute force, exact | < 10K vecteurs, besoin de pr√©cision maximale |
| **IVF** | Inverted file, approximatif | 10K - 10M vecteurs |
| **IVFPQ** | IVF + Product Quantization | 10M+ vecteurs, compression |
| **HNSW** | Hierarchical NSW graph | Tr√®s rapide, m√©moire √©lev√©e |

### 10.2 M√©triques de distance
- **L2 (Euclidean)**: Distance euclidienne classique
- **Inner Product**: Produit scalaire (pour vecteurs normalis√©s = cosine)
- **Cosine**: Angle entre vecteurs

### 10.3 Librairies alternatives
- **Milvus**: Vector DB distribu√©e, production-ready
- **Weaviate**: Vector DB avec GraphQL
- **Pinecone**: Vector DB manag√©e (cloud)
- **Qdrant**: Vector DB en Rust, performante

## üìö Ressources

- [FAISS Documentation](https://github.com/facebookresearch/faiss/wiki)
- [Sentence Transformers](https://www.sbert.net/)
- [Understanding Vector Search](https://www.pinecone.io/learn/vector-search/)
- [Embeddings Guide](https://platform.openai.com/docs/guides/embeddings)

## ‚úÖ Checklist

- [ ] Embeddings cr√©√©s pour tous les documents
- [ ] Index FAISS Flat impl√©ment√©
- [ ] Index FAISS IVF impl√©ment√©
- [ ] Recherche de similarit√© test√©e
- [ ] Recall et Precision calcul√©s
- [ ] Index sauvegard√© localement
- [ ] Benchmark de performance effectu√©

---

**Session S10 compl√©t√©e! üöÄ**