# üöÄ Google Colab Setup

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ogautier1980/sandbox-ml/blob/main/cours/XX_CHAPTER/XX_NOTEBOOK.ipynb)

**Si vous ex√©cutez ce notebook sur Google Colab**, ex√©cutez la cellule suivante pour installer les d√©pendances.

In [None]:
# Installation des d√©pendances (Google Colab uniquement)import sysIN_COLAB = 'google.colab' in sys.modulesif IN_COLAB:    print('üì¶ Installation des packages...')        # Packages ML de base    !pip install -q numpy pandas matplotlib seaborn scikit-learn        # D√©tection du chapitre et installation des d√©pendances sp√©cifiques    notebook_name = '08_demo_rag_llm.ipynb'  # Sera remplac√© automatiquement        # Ch 06-08 : Deep Learning    if any(x in notebook_name for x in ['06_', '07_', '08_']):        !pip install -q torch torchvision torchaudio        # Ch 08 : NLP    if '08_' in notebook_name:        !pip install -q transformers datasets tokenizers        if 'rag' in notebook_name:            !pip install -q sentence-transformers faiss-cpu rank-bm25        # Ch 09 : Reinforcement Learning    if '09_' in notebook_name:        !pip install -q gymnasium[classic-control]        # Ch 04 : Boosting    if '04_' in notebook_name and 'boosting' in notebook_name:        !pip install -q xgboost lightgbm catboost        # Ch 05 : Clustering avanc√©    if '05_' in notebook_name:        !pip install -q umap-learn        # Ch 11 : S√©ries temporelles    if '11_' in notebook_name:        !pip install -q statsmodels prophet        # Ch 12 : Vision avanc√©e    if '12_' in notebook_name:        !pip install -q ultralytics timm segmentation-models-pytorch        # Ch 13 : Recommandation    if '13_' in notebook_name:        !pip install -q scikit-surprise implicit        # Ch 14 : MLOps    if '14_' in notebook_name:        !pip install -q mlflow fastapi pydantic        print('‚úÖ Installation termin√©e !')else:    print('‚ÑπÔ∏è  Environnement local d√©tect√©, les packages sont d√©j√† install√©s.')

# Chapitre 08 - RAG et LLMs : Retrieval-Augmented Generation

Ce notebook explore les concepts avanc√©s de **RAG (Retrieval-Augmented Generation)**, une technique qui combine la recherche d'information avec la g√©n√©ration de texte par LLMs.

## Objectifs
1. Comprendre l'architecture RAG
2. Impl√©menter des embeddings et vector search avec FAISS
3. Construire un pipeline RAG complet
4. Techniques avanc√©es : chunking, reranking, hybrid search
5. √âvaluer la qualit√© du RAG

## 1. Introduction au RAG

### Qu'est-ce que le RAG ?

Le **Retrieval-Augmented Generation** est une technique qui am√©liore les LLMs en leur fournissant des informations contextuelles pertinentes r√©cup√©r√©es d'une base de connaissances.

**Architecture RAG** :
```
Query ‚Üí Retrieval (recherche) ‚Üí Context ‚Üí LLM ‚Üí Response
         ‚Üì
    Knowledge Base
    (documents vectoris√©s)
```

**Avantages** :
- R√©duit les hallucinations du LLM
- Permet d'utiliser des connaissances √† jour sans r√©entra√Ænement
- Transparence : les sources peuvent √™tre cit√©es

**Cas d'usage** :
- Chatbots de support client
- Syst√®mes de Q&A sur documentation
- Assistants de recherche acad√©mique

In [None]:
# Installation des biblioth√®ques n√©cessaires
!pip install -q sentence-transformers faiss-cpu rank-bm25 scikit-learn matplotlib numpy

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sentence_transformers import SentenceTransformer, CrossEncoder
import faiss
from sklearn.decomposition import PCA
from rank_bm25 import BM25Okapi
import warnings
warnings.filterwarnings('ignore')

## 2. Embeddings et Vector Search

### 2.1 Cr√©ation d'Embeddings avec Sentence-BERT

Les **embeddings** sont des repr√©sentations vectorielles denses qui capturent le sens s√©mantique du texte.

In [None]:
# Charger un mod√®le d'embeddings pr√©-entra√Æn√©
# all-MiniLM-L6-v2 : l√©ger (80 MB), rapide, 384 dimensions
model = SentenceTransformer('all-MiniLM-L6-v2')

print(f"Mod√®le charg√© : {model.get_sentence_embedding_dimension()} dimensions")

In [None]:
# Dataset exemple : corpus de connaissances ML
documents = [
    "Le Machine Learning est une branche de l'intelligence artificielle qui permet aux syst√®mes d'apprendre automatiquement √† partir des donn√©es sans √™tre explicitement programm√©s.",
    "Les r√©seaux de neurones profonds sont compos√©s de plusieurs couches de neurones artificiels interconnect√©s qui transforment progressivement les donn√©es d'entr√©e.",
    "LSTM signifie Long Short-Term Memory. C'est une architecture de r√©seau de neurones r√©current con√ßue pour r√©soudre le probl√®me du gradient qui dispara√Æt.",
    "L'attention est un m√©canisme qui permet au mod√®le de se concentrer sur diff√©rentes parties de l'entr√©e lors de la g√©n√©ration de chaque √©l√©ment de sortie.",
    "Les Transformers utilisent uniquement des m√©canismes d'attention et se passent compl√®tement de r√©currence, ce qui permet une meilleure parall√©lisation.",
    "BERT (Bidirectional Encoder Representations from Transformers) est pr√©-entra√Æn√© avec une t√¢che de Masked Language Modeling sur de grands corpus.",
    "GPT (Generative Pre-trained Transformer) est un mod√®le autor√©gressif entra√Æn√© √† pr√©dire le mot suivant dans une s√©quence.",
    "Le fine-tuning consiste √† adapter un mod√®le pr√©-entra√Æn√© √† une t√¢che sp√©cifique en continuant l'entra√Ænement sur des donn√©es de cette t√¢che.",
    "La validation crois√©e permet d'√©valuer la performance d'un mod√®le en divisant les donn√©es en plusieurs folds et en entra√Ænant/testant sur diff√©rentes combinaisons.",
    "L'overfitting se produit quand un mod√®le apprend trop bien les donn√©es d'entra√Ænement au point de ne plus g√©n√©raliser sur de nouvelles donn√©es.",
    "La r√©gularisation L2 (Ridge) ajoute une p√©nalit√© proportionnelle au carr√© des poids pour √©viter l'overfitting.",
    "Le dropout est une technique de r√©gularisation qui d√©sactive al√©atoirement des neurones pendant l'entra√Ænement pour forcer le r√©seau √† √™tre plus robuste.",
    "Le gradient descent est un algorithme d'optimisation qui ajuste it√©rativement les param√®tres dans la direction oppos√©e au gradient de la fonction de perte.",
    "Adam (Adaptive Moment Estimation) est un optimiseur qui combine les avantages de RMSProp et momentum avec des taux d'apprentissage adaptatifs.",
    "La backpropagation est l'algorithme utilis√© pour calculer les gradients dans les r√©seaux de neurones en propageant l'erreur de la sortie vers l'entr√©e."
]

print(f"Corpus de {len(documents)} documents charg√©")

In [None]:
# G√©n√©rer les embeddings pour tous les documents
print("G√©n√©ration des embeddings...")
embeddings = model.encode(documents, show_progress_bar=True)

print(f"\nShape des embeddings : {embeddings.shape}")
print(f"Type : {embeddings.dtype}")
print(f"Exemple (5 premi√®res dimensions du doc 0) : {embeddings[0][:5]}")

### 2.2 Vector Search avec FAISS

**FAISS** (Facebook AI Similarity Search) est une biblioth√®que optimis√©e pour la recherche de similarit√© dans des espaces vectoriels de haute dimension.

In [None]:
# Cr√©er un index FAISS pour recherche rapide
dimension = embeddings.shape[1]  # 384 pour all-MiniLM-L6-v2

# IndexFlatL2 : recherche exhaustive avec distance L2 (Euclidienne)
index = faiss.IndexFlatL2(dimension)

# Ajouter les embeddings √† l'index
index.add(embeddings.astype('float32'))

print(f"Index FAISS cr√©√© avec {index.ntotal} vecteurs")

In [None]:
# Fonction de recherche
def search(query, k=3):
    """
    Recherche les k documents les plus similaires √† la query.
    
    Args:
        query (str): Question/requ√™te de l'utilisateur
        k (int): Nombre de r√©sultats √† retourner
    
    Returns:
        List[Tuple[str, float]]: Liste de (document, distance)
    """
    # Encoder la query
    query_embedding = model.encode([query])
    
    # Rechercher dans l'index
    distances, indices = index.search(query_embedding.astype('float32'), k)
    
    # Retourner les r√©sultats
    results = []
    for j, i in enumerate(indices[0]):
        results.append((documents[i], float(distances[0][j])))
    
    return results

In [None]:
# Test de recherche
query = "Comment fonctionnent les LSTM ?"
results = search(query, k=3)

print(f"Query : '{query}'\n")
print("Top 3 r√©sultats :")
print("=" * 80)
for i, (doc, dist) in enumerate(results, 1):
    print(f"\n[{i}] Distance L2: {dist:.3f}")
    print(f"Document : {doc}")
    print("-" * 80)

In [None]:
# Tester plusieurs queries
test_queries = [
    "Qu'est-ce que l'attention dans les r√©seaux de neurones ?",
    "Comment √©viter l'overfitting ?",
    "Quelle est la diff√©rence entre BERT et GPT ?"
]

for query in test_queries:
    print(f"\n{'='*80}")
    print(f"Query : '{query}'")
    print(f"{'='*80}")
    results = search(query, k=2)
    for i, (doc, dist) in enumerate(results, 1):
        print(f"\n[{i}] Distance: {dist:.3f}")
        print(f"{doc[:150]}...")

## 3. Pipeline RAG Complet

Construisons un syst√®me RAG end-to-end qui int√®gre retrieval et g√©n√©ration de contexte.

In [None]:
class SimpleRAG:
    """
    Pipeline RAG simple : Retrieval + Context Generation.
    
    Note : Cette impl√©mentation ne fait pas appel √† un LLM r√©el (OpenAI/GPT)
    mais g√©n√®re un prompt format√© qui pourrait √™tre envoy√© √† un LLM.
    """
    
    def __init__(self, documents, model_name='all-MiniLM-L6-v2'):
        self.documents = documents
        self.model = SentenceTransformer(model_name)
        self.embeddings = self.model.encode(documents, show_progress_bar=False)
        self.index = self._create_index()
    
    def _create_index(self):
        """Cr√©e un index FAISS pour la recherche vectorielle."""
        dimension = self.embeddings.shape[1]
        index = faiss.IndexFlatL2(dimension)
        index.add(self.embeddings.astype('float32'))
        return index
    
    def retrieve(self, query, k=3):
        """
        R√©cup√®re les k documents les plus pertinents.
        
        Args:
            query (str): Question de l'utilisateur
            k (int): Nombre de documents √† r√©cup√©rer
        
        Returns:
            List[str]: Liste des documents pertinents
        """
        query_emb = self.model.encode([query])
        distances, indices = self.index.search(query_emb.astype('float32'), k)
        return [self.documents[i] for i in indices[0]]
    
    def generate_context(self, query, k=3):
        """
        G√©n√®re un contexte format√© √† partir des documents r√©cup√©r√©s.
        
        Args:
            query (str): Question de l'utilisateur
            k (int): Nombre de documents √† utiliser
        
        Returns:
            str: Contexte format√©
        """
        retrieved_docs = self.retrieve(query, k=k)
        context = "\n\n".join([
            f"Document {i+1}: {doc}" 
            for i, doc in enumerate(retrieved_docs)
        ])
        return context
    
    def answer(self, query, k=3):
        """
        G√©n√®re un prompt complet pour un LLM avec contexte r√©cup√©r√©.
        
        Args:
            query (str): Question de l'utilisateur
            k (int): Nombre de documents √† utiliser
        
        Returns:
            str: Prompt format√© pour LLM
        """
        context = self.generate_context(query, k=k)
        
        prompt = f"""Vous √™tes un assistant IA expert en Machine Learning.

Contexte r√©cup√©r√© de la base de connaissances :
{context}

Question de l'utilisateur : {query}

Instructions :
- R√©pondez uniquement en vous basant sur le contexte fourni
- Si l'information n'est pas dans le contexte, dites-le clairement
- Citez les documents pertinents (Document 1, 2, etc.)

R√©ponse :"""
        
        return prompt

In [None]:
# Instancier le syst√®me RAG
rag = SimpleRAG(documents)

print("Syst√®me RAG initialis√© avec succ√®s !")
print(f"Nombre de documents index√©s : {len(documents)}")

In [None]:
# Test du pipeline RAG
query = "Qu'est-ce qu'un LSTM et pourquoi est-il utilis√© ?"
prompt = rag.answer(query, k=3)

print(prompt)

In [None]:
# Tester avec diff√©rentes questions
test_queries = [
    "Comment fonctionne le m√©canisme d'attention ?",
    "Quelle est la diff√©rence entre BERT et GPT ?",
    "Quelles sont les techniques pour √©viter l'overfitting ?"
]

for query in test_queries:
    print(f"\n{'='*80}")
    print(f"QUERY : {query}")
    print(f"{'='*80}")
    
    # R√©cup√©rer seulement les documents (sans le prompt complet)
    retrieved = rag.retrieve(query, k=2)
    for i, doc in enumerate(retrieved, 1):
        print(f"\n[Document {i}]")
        print(doc)

## 4. Chunking et Preprocessing

Pour des documents longs, il faut les **d√©couper en chunks** (morceaux) g√©rables.

In [None]:
def chunk_text(text, chunk_size=200, overlap=50):
    """
    D√©coupe un texte en chunks avec overlap.
    
    Args:
        text (str): Texte √† d√©couper
        chunk_size (int): Nombre de mots par chunk
        overlap (int): Nombre de mots de chevauchement entre chunks
    
    Returns:
        List[str]: Liste de chunks
    """
    words = text.split()
    chunks = []
    
    for i in range(0, len(words), chunk_size - overlap):
        chunk = ' '.join(words[i:i + chunk_size])
        if chunk:  # √âviter les chunks vides
            chunks.append(chunk)
    
    return chunks

In [None]:
# Exemple avec un document long (simulation)
long_document = """Le Machine Learning est une discipline passionnante. 
Elle permet de cr√©er des syst√®mes intelligents. Les algorithmes apprennent des donn√©es. 
Il existe plusieurs types d'apprentissage : supervis√©, non-supervis√© et par renforcement. 
Les r√©seaux de neurones sont des mod√®les tr√®s puissants. Ils sont inspir√©s du cerveau humain.
""" * 20  # R√©p√©ter pour simuler un long document

print(f"Document original : {len(long_document.split())} mots\n")

# D√©couper avec diff√©rents param√®tres
chunks = chunk_text(long_document, chunk_size=50, overlap=10)

print(f"Document d√©coup√© en {len(chunks)} chunks")
print(f"\nExemple de chunks :")
for i, chunk in enumerate(chunks[:3], 1):
    print(f"\n[Chunk {i}] ({len(chunk.split())} mots)")
    print(chunk)

In [None]:
def semantic_chunk(text, separator='\n\n'):
    """
    D√©coupe un texte par s√©parateur s√©mantique (paragraphes).
    
    Args:
        text (str): Texte √† d√©couper
        separator (str): S√©parateur (d√©faut : double saut de ligne)
    
    Returns:
        List[str]: Liste de chunks
    """
    paragraphs = text.split(separator)
    return [p.strip() for p in paragraphs if p.strip()]

# Exemple
text_with_paragraphs = """Paragraphe 1 : Introduction au ML.
Le Machine Learning transforme les donn√©es en connaissances.

Paragraphe 2 : Les algorithmes.
Il existe de nombreux algorithmes diff√©rents.

Paragraphe 3 : Applications.
Le ML est utilis√© dans de nombreux domaines."""

semantic_chunks = semantic_chunk(text_with_paragraphs)
print(f"Chunks s√©mantiques : {len(semantic_chunks)}\n")
for i, chunk in enumerate(semantic_chunks, 1):
    print(f"[Chunk {i}]\n{chunk}\n")

## 5. √âvaluation du RAG

Mesurer la qualit√© du retrieval avec **Precision@K** et **Recall@K**.

In [None]:
def evaluate_retrieval(queries, expected_indices, rag_system, k=3):
    """
    √âvalue la qualit√© du retrieval avec Precision@K et Recall@K.
    
    Args:
        queries (List[str]): Liste de questions
        expected_indices (List[List[int]]): Indices des documents pertinents pour chaque query
        rag_system (SimpleRAG): Syst√®me RAG √† √©valuer
        k (int): Nombre de documents √† r√©cup√©rer
    
    Returns:
        Tuple[float, float]: (mean_precision, mean_recall)
    """
    precisions = []
    recalls = []
    
    for query, expected in zip(queries, expected_indices):
        # R√©cup√©rer les documents
        retrieved_docs = rag_system.retrieve(query, k=k)
        
        # Trouver les indices des documents r√©cup√©r√©s
        retrieved_indices = []
        for doc in retrieved_docs:
            try:
                idx = rag_system.documents.index(doc)
                retrieved_indices.append(idx)
            except ValueError:
                pass
        
        # Calculer Precision et Recall
        retrieved_set = set(retrieved_indices)
        expected_set = set(expected)
        
        true_positives = len(retrieved_set & expected_set)
        
        precision = true_positives / k if k > 0 else 0
        recall = true_positives / len(expected_set) if expected_set else 0
        
        precisions.append(precision)
        recalls.append(recall)
    
    return np.mean(precisions), np.mean(recalls)

In [None]:
# Dataset d'√©valuation
eval_queries = [
    "Qu'est-ce que LSTM ?",
    "Comment √©viter l'overfitting ?",
    "Qu'est-ce que l'attention ?"
]

# Indices des documents pertinents (ground truth)
# Bas√© sur notre corpus de 15 documents
expected_indices = [
    [2],        # Query 1 : doc sur LSTM (index 2)
    [9, 11],    # Query 2 : docs sur overfitting et r√©gularisation (index 9, 11)
    [3, 4]      # Query 3 : docs sur attention (index 3, 4)
]

# √âvaluation
precision, recall = evaluate_retrieval(eval_queries, expected_indices, rag, k=3)

print(f"Precision@3 : {precision:.3f}")
print(f"Recall@3    : {recall:.3f}")

In [None]:
# √âvaluer pour diff√©rentes valeurs de K
k_values = [1, 2, 3, 5]
results = []

for k in k_values:
    prec, rec = evaluate_retrieval(eval_queries, expected_indices, rag, k=k)
    results.append((k, prec, rec))
    print(f"K={k} | Precision: {prec:.3f} | Recall: {rec:.3f}")

# Visualisation
k_vals, precs, recs = zip(*results)

plt.figure(figsize=(10, 5))
plt.plot(k_vals, precs, marker='o', label='Precision@K', linewidth=2)
plt.plot(k_vals, recs, marker='s', label='Recall@K', linewidth=2)
plt.xlabel('K (nombre de documents r√©cup√©r√©s)', fontsize=12)
plt.ylabel('Score', fontsize=12)
plt.title('Precision@K et Recall@K en fonction de K', fontsize=14, fontweight='bold')
plt.legend(fontsize=11)
plt.grid(True, alpha=0.3)
plt.xticks(k_vals)
plt.tight_layout()
plt.show()

## 6. Techniques Avanc√©es

### 6.1 Reranking : Am√©liorer les R√©sultats

Le **reranking** utilise un mod√®le plus pr√©cis (CrossEncoder) pour r√©ordonner les r√©sultats de la premi√®re recherche.

In [None]:
# Charger un mod√®le de reranking
print("Chargement du mod√®le de reranking...")
reranker = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2')
print("Mod√®le charg√© !")

In [None]:
def rerank(query, documents, top_k=3):
    """
    R√©ordonne les documents avec un CrossEncoder.
    
    Args:
        query (str): Question de l'utilisateur
        documents (List[str]): Documents √† r√©ordonner
        top_k (int): Nombre de r√©sultats √† retourner
    
    Returns:
        List[Tuple[str, float]]: Documents r√©ordonn√©s avec scores
    """
    # Cr√©er des paires (query, document)
    pairs = [[query, doc] for doc in documents]
    
    # Pr√©dire les scores de pertinence
    scores = reranker.predict(pairs)
    
    # R√©ordonner par score d√©croissant
    ranked_indices = np.argsort(scores)[::-1][:top_k]
    
    return [(documents[i], float(scores[i])) for i in ranked_indices]

In [None]:
# Comparaison : Retrieval seul vs Retrieval + Reranking
query = "Expliquez le m√©canisme d'attention dans les Transformers"

# 1. Retrieval classique (top 5)
retrieved_docs = rag.retrieve(query, k=5)

print("RETRIEVAL SEUL (FAISS) - Top 5")
print("="*80)
for i, doc in enumerate(retrieved_docs, 1):
    print(f"[{i}] {doc[:100]}...\n")

# 2. Reranking des r√©sultats
reranked = rerank(query, retrieved_docs, top_k=3)

print("\nAPR√àS RERANKING - Top 3")
print("="*80)
for i, (doc, score) in enumerate(reranked, 1):
    print(f"[{i}] Score: {score:.3f}")
    print(f"{doc[:100]}...\n")

### 6.2 Hybrid Search : BM25 + Dense Embeddings

Combine **recherche par mots-cl√©s (BM25)** et **recherche s√©mantique (embeddings)**.

In [None]:
def hybrid_search(query, documents, embeddings, index, model, alpha=0.5, k=3):
    """
    Recherche hybride : BM25 + Dense embeddings.
    
    Args:
        query (str): Question de l'utilisateur
        documents (List[str]): Corpus de documents
        embeddings (np.ndarray): Embeddings des documents
        index (faiss.Index): Index FAISS
        model (SentenceTransformer): Mod√®le d'embeddings
        alpha (float): Poids de BM25 (0=dense only, 1=BM25 only)
        k (int): Nombre de r√©sultats
    
    Returns:
        List[Tuple[str, float]]: Documents avec scores hybrides
    """
    # 1. BM25 (keyword-based)
    tokenized_docs = [doc.lower().split() for doc in documents]
    bm25 = BM25Okapi(tokenized_docs)
    bm25_scores = bm25.get_scores(query.lower().split())
    
    # Normaliser scores BM25 (0-1)
    if bm25_scores.max() > 0:
        bm25_scores = bm25_scores / bm25_scores.max()
    
    # 2. Dense search (embedding-based)
    query_emb = model.encode([query])
    distances, indices = index.search(query_emb.astype('float32'), len(documents))
    
    # Convertir distances L2 en scores de similarit√© (inverse)
    dense_scores = np.zeros(len(documents))
    max_dist = distances[0].max() if distances[0].max() > 0 else 1
    for i, idx in enumerate(indices[0]):
        dense_scores[idx] = 1 - (distances[0][i] / max_dist)
    
    # 3. Combiner les scores
    combined_scores = alpha * bm25_scores + (1 - alpha) * dense_scores
    
    # 4. S√©lectionner top-k
    top_indices = np.argsort(combined_scores)[::-1][:k]
    
    return [(documents[i], float(combined_scores[i])) for i in top_indices]

In [None]:
# Comparaison des strat√©gies de recherche
query = "gradient descent optimisation"

print(f"Query : '{query}'\n")
print("="*80)

# BM25 only (alpha=1)
bm25_results = hybrid_search(query, documents, embeddings, index, model, alpha=1.0, k=3)
print("\nBM25 ONLY (Keyword-based)")
for i, (doc, score) in enumerate(bm25_results, 1):
    print(f"[{i}] Score: {score:.3f} | {doc[:80]}...")

# Dense only (alpha=0)
dense_results = hybrid_search(query, documents, embeddings, index, model, alpha=0.0, k=3)
print("\nDENSE ONLY (Semantic)")
for i, (doc, score) in enumerate(dense_results, 1):
    print(f"[{i}] Score: {score:.3f} | {doc[:80]}...")

# Hybrid (alpha=0.5)
hybrid_results = hybrid_search(query, documents, embeddings, index, model, alpha=0.5, k=3)
print("\nHYBRID (BM25 + Dense, alpha=0.5)")
for i, (doc, score) in enumerate(hybrid_results, 1):
    print(f"[{i}] Score: {score:.3f} | {doc[:80]}...")

## 7. Visualisation des Embeddings

Visualiser les embeddings en 2D avec **PCA**.

In [None]:
# R√©duction de dimensionnalit√© avec PCA
pca = PCA(n_components=2)
embeddings_2d = pca.fit_transform(embeddings)

print(f"Variance expliqu√©e par les 2 composantes : {pca.explained_variance_ratio_.sum():.2%}")

In [None]:
# Visualisation
plt.figure(figsize=(14, 10))
plt.scatter(embeddings_2d[:, 0], embeddings_2d[:, 1], s=100, alpha=0.6, c='steelblue', edgecolors='black')

# Annoter avec les premiers mots de chaque document
for i, doc in enumerate(documents):
    label = ' '.join(doc.split()[:4]) + '...'  # 4 premiers mots
    plt.annotate(label, 
                 (embeddings_2d[i, 0], embeddings_2d[i, 1]),
                 fontsize=8,
                 alpha=0.8,
                 bbox=dict(boxstyle='round,pad=0.3', facecolor='yellow', alpha=0.3))

plt.title('Visualisation des Embeddings (PCA 2D)', fontsize=14, fontweight='bold')
plt.xlabel('Composante Principale 1', fontsize=12)
plt.ylabel('Composante Principale 2', fontsize=12)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Visualiser une query et ses r√©sultats
query_test = "Qu'est-ce que le dropout ?"
query_emb = model.encode([query_test])
query_2d = pca.transform(query_emb)

# R√©cup√©rer les documents pertinents
retrieved_indices = []
retrieved_docs = rag.retrieve(query_test, k=3)
for doc in retrieved_docs:
    retrieved_indices.append(documents.index(doc))

# Visualisation
plt.figure(figsize=(14, 10))

# Documents (gris)
plt.scatter(embeddings_2d[:, 0], embeddings_2d[:, 1], s=100, alpha=0.3, c='gray', label='Autres documents')

# Documents r√©cup√©r√©s (vert)
retrieved_2d = embeddings_2d[retrieved_indices]
plt.scatter(retrieved_2d[:, 0], retrieved_2d[:, 1], s=150, alpha=0.8, c='green', edgecolors='black', label='Docs r√©cup√©r√©s')

# Query (rouge)
plt.scatter(query_2d[:, 0], query_2d[:, 1], s=200, c='red', marker='*', edgecolors='black', label='Query', zorder=5)

# Annotations
plt.annotate('QUERY', (query_2d[0, 0], query_2d[0, 1]), fontsize=12, fontweight='bold', color='red')
for i in retrieved_indices:
    label = ' '.join(documents[i].split()[:4]) + '...'
    plt.annotate(label, (embeddings_2d[i, 0], embeddings_2d[i, 1]), fontsize=9, color='green')

plt.title(f'Query : "{query_test}"', fontsize=14, fontweight='bold')
plt.xlabel('Composante Principale 1', fontsize=12)
plt.ylabel('Composante Principale 2', fontsize=12)
plt.legend(fontsize=11)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

## 8. Exercices Pratiques

### Exercice 1 : Cr√©er un RAG pour un Corpus Personnalis√©

**T√¢che** : Cr√©ez un syst√®me RAG sur un corpus de votre choix (ex: articles scientifiques, documentation technique, etc.).

**Instructions** :
1. Pr√©parez un corpus d'au moins 20 documents
2. Impl√©mentez le chunking si n√©cessaire
3. Cr√©ez l'index FAISS
4. Testez avec 5 queries
5. √âvaluez avec Precision@3 et Recall@3

In [None]:
# SOLUTION EXERCICE 1

# Corpus exemple : concepts Python avanc√©s
python_docs = [
    "Les d√©corateurs en Python sont des fonctions qui modifient le comportement d'autres fonctions ou classes.",
    "Les g√©n√©rateurs permettent de cr√©er des it√©rateurs de mani√®re √©l√©gante en utilisant le mot-cl√© yield.",
    "Le context manager (with statement) g√®re automatiquement l'acquisition et la lib√©ration de ressources.",
    "Les list comprehensions offrent une syntaxe concise pour cr√©er des listes √† partir d'it√©rables.",
    "Les lambda functions sont des fonctions anonymes d√©finies en une seule ligne avec le mot-cl√© lambda.",
    "Le Global Interpreter Lock (GIL) emp√™che plusieurs threads d'ex√©cuter du bytecode Python simultan√©ment.",
    "Les metaclasses sont des classes de classes qui contr√¥lent la cr√©ation et le comportement des classes.",
    "Le duck typing permet d'utiliser des objets bas√©s sur leurs m√©thodes plut√¥t que sur leur type explicite.",
    "Les asyncio et await permettent la programmation asynchrone pour g√©rer les op√©rations I/O efficacement.",
    "Le property decorator transforme une m√©thode en attribut accessible avec une syntaxe simplifi√©e.",
    "Les dataclasses (depuis Python 3.7) r√©duisent le boilerplate pour cr√©er des classes de donn√©es.",
    "Le module collections fournit des conteneurs sp√©cialis√©s comme defaultdict, Counter et deque.",
    "Les type hints (PEP 484) permettent d'annoter le code avec des types pour am√©liorer la lisibilit√©.",
    "Le pattern matching (Python 3.10+) permet de comparer des structures de donn√©es avec match/case.",
    "Les f-strings offrent une syntaxe moderne et performante pour le formatage de cha√Ænes.",
    "Le module functools fournit des outils pour la programmation fonctionnelle comme partial et reduce.",
    "Les slots optimisent la m√©moire en d√©finissant explicitement les attributs d'une classe.",
    "Le module abc (Abstract Base Classes) permet de d√©finir des interfaces en Python.",
    "Les coroutines sont des fonctions qui peuvent √™tre suspendues et reprises, essentielles pour asyncio.",
    "Le module itertools fournit des it√©rateurs efficaces pour des op√©rations combinatoires et de permutation."
]

# Cr√©er le syst√®me RAG
python_rag = SimpleRAG(python_docs)

# Test avec queries
test_queries = [
    "Comment cr√©er des it√©rateurs en Python ?",
    "Qu'est-ce que le GIL ?",
    "Comment formater des cha√Ænes en Python ?",
    "Qu'est-ce qu'une fonction lambda ?",
    "Comment faire de la programmation asynchrone ?"
]

print("Test du RAG sur documentation Python\n")
for query in test_queries:
    print(f"Query : {query}")
    results = python_rag.retrieve(query, k=2)
    for i, doc in enumerate(results, 1):
        print(f"  [{i}] {doc}")
    print()

### Exercice 2 : Comparer Diff√©rents Mod√®les d'Embeddings

**T√¢che** : Comparez les performances de diff√©rents mod√®les d'embeddings.

**Mod√®les √† tester** :
- `all-MiniLM-L6-v2` (rapide, 384 dim)
- `all-mpnet-base-v2` (meilleur qualit√©, 768 dim)

**M√©trique** : Precision@3 sur un ensemble de queries

In [None]:
# SOLUTION EXERCICE 2

import time

models_to_test = [
    'all-MiniLM-L6-v2',      # 384 dimensions
    'all-mpnet-base-v2'      # 768 dimensions
]

# Queries et ground truth (bas√© sur notre corpus ML original)
eval_queries = [
    "Qu'est-ce que LSTM ?",
    "Comment √©viter l'overfitting ?",
    "Qu'est-ce que l'attention ?"
]
expected_indices = [[2], [9, 11], [3, 4]]

comparison_results = []

for model_name in models_to_test:
    print(f"\nTest du mod√®le : {model_name}")
    print("="*60)
    
    # Cr√©er RAG avec ce mod√®le
    start = time.time()
    rag_test = SimpleRAG(documents, model_name=model_name)
    init_time = time.time() - start
    
    # √âvaluer
    prec, rec = evaluate_retrieval(eval_queries, expected_indices, rag_test, k=3)
    
    comparison_results.append({
        'model': model_name,
        'precision': prec,
        'recall': rec,
        'init_time': init_time,
        'dimensions': rag_test.embeddings.shape[1]
    })
    
    print(f"Dimensions      : {rag_test.embeddings.shape[1]}")
    print(f"Temps init      : {init_time:.2f}s")
    print(f"Precision@3     : {prec:.3f}")
    print(f"Recall@3        : {rec:.3f}")

# Tableau comparatif
print("\n" + "="*80)
print("COMPARAISON DES MOD√àLES")
print("="*80)
print(f"{'Mod√®le':<30} {'Dim':<8} {'P@3':<8} {'R@3':<8} {'Temps (s)':<10}")
print("-"*80)
for res in comparison_results:
    print(f"{res['model']:<30} {res['dimensions']:<8} {res['precision']:<8.3f} {res['recall']:<8.3f} {res['init_time']:<10.2f}")

### Exercice 3 : Impl√©menter un Syst√®me de Reranking

**T√¢che** : Impl√©mentez un pipeline complet avec retrieval initial (k=10) puis reranking (top-3).

**√âtapes** :
1. R√©cup√©rer 10 documents avec FAISS
2. Reranker avec CrossEncoder
3. Garder les 3 meilleurs
4. Comparer avec retrieval direct (k=3)

In [None]:
# SOLUTION EXERCICE 3

class RAGWithReranking:
    """
    Pipeline RAG avec √©tape de reranking.
    """
    
    def __init__(self, documents, embedding_model='all-MiniLM-L6-v2', 
                 reranker_model='cross-encoder/ms-marco-MiniLM-L-6-v2'):
        self.documents = documents
        self.embedding_model = SentenceTransformer(embedding_model)
        self.reranker = CrossEncoder(reranker_model)
        self.embeddings = self.embedding_model.encode(documents, show_progress_bar=False)
        self.index = self._create_index()
    
    def _create_index(self):
        dimension = self.embeddings.shape[1]
        index = faiss.IndexFlatL2(dimension)
        index.add(self.embeddings.astype('float32'))
        return index
    
    def retrieve_and_rerank(self, query, retrieve_k=10, final_k=3):
        """
        Pipeline : Retrieval (k=retrieve_k) ‚Üí Reranking ‚Üí Top final_k.
        """
        # √âtape 1 : Retrieval initial
        query_emb = self.embedding_model.encode([query])
        distances, indices = self.index.search(query_emb.astype('float32'), retrieve_k)
        candidate_docs = [self.documents[i] for i in indices[0]]
        
        # √âtape 2 : Reranking
        pairs = [[query, doc] for doc in candidate_docs]
        scores = self.reranker.predict(pairs)
        
        # √âtape 3 : Top final_k
        ranked_indices = np.argsort(scores)[::-1][:final_k]
        final_docs = [(candidate_docs[i], float(scores[i])) for i in ranked_indices]
        
        return final_docs

# Cr√©er le syst√®me
print("Initialisation du syst√®me avec reranking...")
rag_rerank = RAGWithReranking(documents)
print("Syst√®me pr√™t !\n")

# Test
query = "Expliquez la backpropagation dans les r√©seaux de neurones"

print(f"Query : '{query}'\n")
print("="*80)

# R√©sultats avec reranking
results_rerank = rag_rerank.retrieve_and_rerank(query, retrieve_k=10, final_k=3)
print("AVEC RERANKING (retrieve 10 ‚Üí rerank ‚Üí top 3)")
for i, (doc, score) in enumerate(results_rerank, 1):
    print(f"\n[{i}] Score: {score:.3f}")
    print(f"{doc}")

# Comparaison avec retrieval direct
print("\n" + "="*80)
results_direct = rag.retrieve(query, k=3)
print("SANS RERANKING (retrieval direct top 3)")
for i, doc in enumerate(results_direct, 1):
    print(f"\n[{i}] {doc}")

## Conclusion

### R√©capitulatif

Dans ce notebook, nous avons explor√© :

1. **Architecture RAG** : Retrieval + Generation pour am√©liorer les LLMs
2. **Embeddings** : Repr√©sentations vectorielles avec Sentence-BERT
3. **Vector Search** : Recherche rapide avec FAISS (IndexFlatL2)
4. **Pipeline RAG** : Syst√®me complet de retrieval et g√©n√©ration de contexte
5. **Chunking** : Techniques de d√©coupage de documents longs
6. **√âvaluation** : Precision@K et Recall@K pour mesurer la qualit√©
7. **Techniques avanc√©es** :
   - **Reranking** : CrossEncoder pour am√©liorer les r√©sultats
   - **Hybrid Search** : Combinaison BM25 (keyword) + Dense (semantic)
8. **Visualisation** : PCA pour explorer l'espace des embeddings

### Points Cl√©s

- **RAG r√©duit les hallucinations** en fournissant un contexte factuel au LLM
- **FAISS est essentiel** pour la recherche vectorielle √† grande √©chelle
- **Reranking am√©liore significativement** la qualit√© des r√©sultats (mais co√ªt computationnel)
- **Hybrid search combine** les avantages de la recherche par mots-cl√©s et s√©mantique
- **L'√©valuation est cruciale** : toujours mesurer Precision/Recall

### Pour Aller Plus Loin

- **LlamaIndex** : framework complet pour RAG
- **LangChain** : orchestration de LLMs avec RAG
- **ChromaDB, Pinecone, Weaviate** : bases de donn√©es vectorielles
- **ColBERT** : late interaction pour retrieval ultra-performant
- **Dense Passage Retrieval (DPR)** : mod√®le bi-encoder entra√Æn√© end-to-end