# Projet D - RAG : Question-Answering sur Documents

**Module** : R√©seaux de Neurones Approfondissement  
**Dur√©e** : 2h  
**Objectif** : Construire un syst√®me de question-answering avec RAG

---

## Objectifs du projet

Dans ce projet, vous allez :
1. Comprendre le principe du RAG (Retrieval-Augmented Generation)
2. Cr√©er un index de documents avec des embeddings
3. Impl√©menter la recherche s√©mantique
4. Combiner retrieval + g√©n√©ration pour r√©pondre √† des questions

> **üìå Note p√©dagogique** : Le RAG combine **recherche s√©mantique** (embeddings) et **g√©n√©ration** (LLM).
>
> **Cross-attention** (mentionn√© en Session 2) : Le mod√®le g√©n√©rateur (ici FLAN-T5) est un **encodeur-d√©codeur** 
> qui utilise du cross-attention : le d√©codeur "interroge" l'encodeur qui a trait√© le contexte. 
> C'est ce m√©canisme qui permet au mod√®le de g√©n√©rer une r√©ponse bas√©e sur les documents r√©cup√©r√©s.

## 0. Installation

In [None]:
!pip install torch transformers sentence-transformers matplotlib numpy tqdm faiss-cpu -q

In [None]:
import torch
import numpy as np
import matplotlib.pyplot as plt
from sentence_transformers import SentenceTransformer
from transformers import pipeline
import faiss
from tqdm.auto import tqdm

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"Device: {device}")

---

## 1. Pourquoi le RAG ?

### Le probl√®me des LLMs

Les mod√®les de langage (GPT, BERT...) ont des **limitations** :

| Limitation | Exemple |
|------------|--------|
| **Connaissance fig√©e** | Ne conna√Æt pas les √©v√©nements apr√®s son entra√Ænement |
| **Hallucinations** | Invente des faits avec confiance |
| **Pas de sources** | Ne peut pas citer d'o√π vient l'information |
| **Donn√©es priv√©es** | Ne conna√Æt pas vos documents internes |

### La solution : RAG

**RAG** = Retrieval-Augmented Generation

```
Question: "Quelle est la politique de cong√©s de l'entreprise ?"
        ‚Üì
    [RETRIEVER]
    Cherche dans la base documentaire
        ‚Üì
    Documents pertinents trouv√©s:
    - "Article 5.2: Les employ√©s ont droit √† 25 jours..."
    - "Note RH: Les cong√©s doivent √™tre pos√©s 2 semaines avant..."
        ‚Üì
    [GENERATOR]
    LLM g√©n√®re une r√©ponse bas√©e sur les documents
        ‚Üì
    R√©ponse: "Selon l'article 5.2, vous avez droit √† 25 jours de cong√©s.
              Les cong√©s doivent √™tre pos√©s 2 semaines √† l'avance."
```

### Architecture RAG

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ                         RAG SYSTEM                          ‚îÇ
‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
‚îÇ                                                             ‚îÇ
‚îÇ  Question ‚îÄ‚îÄ‚ñ∫ [Encoder] ‚îÄ‚îÄ‚ñ∫ Query Embedding                 ‚îÇ
‚îÇ                                    ‚îÇ                        ‚îÇ
‚îÇ                                    ‚ñº                        ‚îÇ
‚îÇ              ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê                ‚îÇ
‚îÇ              ‚îÇ     INDEX VECTORIEL         ‚îÇ                ‚îÇ
‚îÇ              ‚îÇ  (embeddings des documents) ‚îÇ                ‚îÇ
‚îÇ              ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò                ‚îÇ
‚îÇ                                    ‚îÇ                        ‚îÇ
‚îÇ                                    ‚ñº                        ‚îÇ
‚îÇ              Top-K documents les plus similaires            ‚îÇ
‚îÇ                                    ‚îÇ                        ‚îÇ
‚îÇ                                    ‚ñº                        ‚îÇ
‚îÇ  ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê        ‚îÇ
‚îÇ  ‚îÇ Prompt = Question + Contexte (documents trouv√©s)‚îÇ        ‚îÇ
‚îÇ  ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò        ‚îÇ
‚îÇ                                    ‚îÇ                        ‚îÇ
‚îÇ                                    ‚ñº                        ‚îÇ
‚îÇ                              [LLM / Generator]              ‚îÇ
‚îÇ                                    ‚îÇ                        ‚îÇ
‚îÇ                                    ‚ñº                        ‚îÇ
‚îÇ                               R√©ponse                       ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

---

## 2. Pr√©paration des Documents

On va cr√©er une base de connaissances sur les **Transformers** (le sujet de ce cours !).

In [None]:
# Base de connaissances (documents)
documents = [
    # Architecture
    {
        "id": 1,
        "title": "Architecture Transformer",
        "content": "Le Transformer est une architecture de r√©seau de neurones introduite en 2017 dans le papier 'Attention Is All You Need'. Il se compose d'un encodeur et d'un d√©codeur, tous deux bas√©s sur le m√©canisme d'attention. L'encodeur traite la s√©quence d'entr√©e en parall√®le, tandis que le d√©codeur g√©n√®re la s√©quence de sortie de mani√®re autoregressive."
    },
    {
        "id": 2,
        "title": "M√©canisme d'Attention",
        "content": "L'attention permet √† chaque position de la s√©quence de 'regarder' toutes les autres positions. Elle utilise trois vecteurs : Query (Q), Key (K) et Value (V). Le score d'attention est calcul√© par le produit scalaire Q¬∑K, normalis√© par la racine de la dimension, puis pass√© dans un softmax. La formule est : Attention(Q,K,V) = softmax(QK^T/‚àöd_k)V."
    },
    {
        "id": 3,
        "title": "Multi-Head Attention",
        "content": "Le Multi-Head Attention utilise plusieurs 't√™tes' d'attention en parall√®le. Chaque t√™te peut apprendre √† d√©tecter diff√©rents types de relations : syntaxiques, s√©mantiques, de proximit√©, etc. Les sorties des t√™tes sont concat√©n√©es puis projet√©es. BERT-base utilise 12 t√™tes, GPT-3 en utilise 96."
    },
    {
        "id": 4,
        "title": "Positional Encoding",
        "content": "Comme le Transformer traite les tokens en parall√®le, il n'a pas de notion d'ordre. Le Positional Encoding ajoute une information de position √† chaque embedding. La version originale utilise des fonctions sinuso√Ødales : PE(pos,2i) = sin(pos/10000^(2i/d)) et PE(pos,2i+1) = cos(pos/10000^(2i/d)). Les mod√®les r√©cents utilisent souvent des embeddings de position appris."
    },
    # Mod√®les
    {
        "id": 5,
        "title": "BERT",
        "content": "BERT (Bidirectional Encoder Representations from Transformers) est un mod√®le cr√©√© par Google en 2018. Il utilise uniquement l'encodeur du Transformer et est pr√©-entra√Æn√© avec deux t√¢ches : Masked Language Modeling (MLM) o√π 15% des tokens sont masqu√©s, et Next Sentence Prediction (NSP). BERT-base a 110M de param√®tres et 12 couches."
    },
    {
        "id": 6,
        "title": "GPT",
        "content": "GPT (Generative Pre-trained Transformer) est d√©velopp√© par OpenAI. Contrairement √† BERT, GPT utilise uniquement le d√©codeur avec un masque causal : chaque token ne peut voir que les tokens pr√©c√©dents. GPT est entra√Æn√© √† pr√©dire le token suivant. GPT-3 a 175 milliards de param√®tres et GPT-4 est estim√© √† plus de 1000 milliards."
    },
    {
        "id": 7,
        "title": "T5",
        "content": "T5 (Text-to-Text Transfer Transformer) de Google reformule toutes les t√¢ches NLP en g√©n√©ration de texte. Par exemple, la classification devient : 'classify: This movie is great' ‚Üí 'positive'. T5 utilise l'architecture encodeur-d√©codeur compl√®te. Le mod√®le T5-11B a 11 milliards de param√®tres."
    },
    # Entra√Ænement
    {
        "id": 8,
        "title": "Pr√©-entra√Ænement",
        "content": "Le pr√©-entra√Ænement consiste √† entra√Æner un mod√®le sur une grande quantit√© de texte non annot√© avec des t√¢ches auto-supervis√©es. Pour BERT c'est le MLM, pour GPT c'est la pr√©diction du token suivant. Cette phase capture les connaissances linguistiques g√©n√©rales et n√©cessite d'√©normes ressources de calcul."
    },
    {
        "id": 9,
        "title": "Fine-tuning",
        "content": "Le fine-tuning adapte un mod√®le pr√©-entra√Æn√© √† une t√¢che sp√©cifique. On ajoute une t√™te de classification et on entra√Æne sur un dataset annot√©. Le fine-tuning n√©cessite beaucoup moins de donn√©es et de calcul que le pr√©-entra√Ænement. Typiquement quelques heures sur un GPU contre des semaines pour le pr√©-entra√Ænement."
    },
    {
        "id": 10,
        "title": "Tokenization",
        "content": "La tokenization d√©coupe le texte en unit√©s (tokens). Les m√©thodes modernes comme BPE (Byte Pair Encoding) ou WordPiece cr√©ent un vocabulaire de sous-mots. Par exemple 'unhappiness' devient ['un', '##happy', '##ness']. Cela permet de g√©rer les mots rares tout en gardant un vocabulaire de taille raisonnable (30k-50k tokens)."
    },
    # Applications
    {
        "id": 11,
        "title": "Classification de texte",
        "content": "Pour la classification avec BERT, on utilise le token [CLS] qui r√©sume toute la s√©quence. On ajoute une couche lin√©aire qui projette l'embedding [CLS] vers le nombre de classes. Pour GPT, on peut utiliser le dernier token ou faire une moyenne des embeddings."
    },
    {
        "id": 12,
        "title": "Question Answering",
        "content": "En Question Answering extractif, le mod√®le doit trouver la r√©ponse dans un contexte donn√©. Le mod√®le pr√©dit deux positions : le d√©but et la fin de la r√©ponse dans le texte. On entra√Æne avec des datasets comme SQuAD qui contient 100k+ paires question-r√©ponse avec leur contexte."
    },
    {
        "id": 13,
        "title": "G√©n√©ration de texte",
        "content": "La g√©n√©ration de texte avec GPT est autoregressive : on pr√©dit un token, on l'ajoute √† l'entr√©e, puis on pr√©dit le suivant. La temp√©rature contr√¥le la 'cr√©ativit√©' : temp√©rature basse = plus d√©terministe, temp√©rature haute = plus al√©atoire. Le top-k et top-p (nucleus sampling) limitent les tokens candidats."
    },
    # Concepts avanc√©s
    {
        "id": 14,
        "title": "RAG",
        "content": "RAG (Retrieval-Augmented Generation) combine recherche documentaire et g√©n√©ration. Au lieu de tout stocker dans les param√®tres du mod√®le, on cherche les documents pertinents dans une base externe puis on les donne au LLM comme contexte. Cela r√©duit les hallucinations et permet de citer les sources."
    },
    {
        "id": 15,
        "title": "Embeddings",
        "content": "Les embeddings sont des repr√©sentations vectorielles denses. Les mots similaires ont des embeddings proches dans l'espace vectoriel. Sentence-BERT produit des embeddings de phrases enti√®res, utiles pour la recherche s√©mantique. La similarit√© cosinus mesure la proximit√© entre deux embeddings."
    },
]

print(f"Base de connaissances: {len(documents)} documents")
for doc in documents[:3]:
    print(f"  - {doc['title']}")

---

## 3. Cr√©ation des Embeddings

On utilise **Sentence-BERT** pour cr√©er des embeddings de documents.

In [None]:
# Charger le mod√®le d'embeddings
print("Chargement du mod√®le d'embeddings...")
embedding_model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
print(f"Mod√®le charg√© ! Dimension des embeddings: {embedding_model.get_sentence_embedding_dimension()}")

In [None]:
# ============================================
# EXERCICE 1 : Cr√©er les embeddings des documents
# ============================================

def create_document_embeddings(documents, model):
    """
    Cr√©e les embeddings pour chaque document.
    
    Args:
        documents: Liste de dicts avec 'title' et 'content'
        model: Mod√®le SentenceTransformer
    
    Returns:
        embeddings: np.array de shape (n_docs, embed_dim)
    """
    # TODO: Cr√©er les embeddings
    # On combine title + content pour chaque document
    
    texts = []  # Liste des textes √† encoder
    for doc in documents:
        # Combiner titre et contenu
        text = f"{doc['title']}: {doc['content']}"
        texts.append(text)
    
    # Encoder avec le mod√®le
    embeddings = model.encode(texts, show_progress_bar=True)
    
    return np.array(embeddings)

# Cr√©er les embeddings
doc_embeddings = create_document_embeddings(documents, embedding_model)
print(f"Embeddings shape: {doc_embeddings.shape}")

---

## 4. Index Vectoriel avec FAISS

**FAISS** (Facebook AI Similarity Search) permet de faire des recherches rapides dans de grands ensembles de vecteurs.

In [None]:
# ============================================
# EXERCICE 2 : Cr√©er l'index FAISS
# ============================================

def create_faiss_index(embeddings):
    """
    Cr√©e un index FAISS pour la recherche de similarit√©.
    
    Args:
        embeddings: np.array de shape (n_docs, embed_dim)
    
    Returns:
        index: Index FAISS
    """
    # TODO: Cr√©er l'index
    
    # Dimension des embeddings
    dim = embeddings.shape[1]
    
    # Cr√©er un index avec similarit√© cosinus
    # On normalise les vecteurs et on utilise IndexFlatIP (Inner Product)
    
    # Normaliser les embeddings (pour que IP = cosine similarity)
    faiss.normalize_L2(embeddings)
    
    # Cr√©er l'index
    index = faiss.IndexFlatIP(dim)  # IP = Inner Product
    
    # Ajouter les vecteurs
    index.add(embeddings)
    
    return index

# Cr√©er l'index
index = create_faiss_index(doc_embeddings.copy())  # copy car normalize_L2 modifie in-place
print(f"Index cr√©√© avec {index.ntotal} vecteurs")

In [None]:
# Test de recherche
def search(query, model, index, documents, top_k=3):
    """
    Recherche les documents les plus similaires √† une requ√™te.
    
    Args:
        query: Texte de la requ√™te
        model: Mod√®le d'embeddings
        index: Index FAISS
        documents: Liste des documents
        top_k: Nombre de r√©sultats
    
    Returns:
        Liste de (document, score)
    """
    # Encoder la requ√™te
    query_embedding = model.encode([query])
    
    # Normaliser
    faiss.normalize_L2(query_embedding)
    
    # Rechercher
    scores, indices = index.search(query_embedding, top_k)
    
    # Retourner les r√©sultats
    results = []
    for score, idx in zip(scores[0], indices[0]):
        results.append((documents[idx], score))
    
    return results

# Test
query = "Comment fonctionne l'attention dans les Transformers ?"
results = search(query, embedding_model, index, documents, top_k=3)

print(f"Requ√™te: '{query}'\n")
print("R√©sultats:")
for doc, score in results:
    print(f"  [{score:.3f}] {doc['title']}")
    print(f"           {doc['content'][:100]}...\n")

---

## 5. G√©n√©ration de R√©ponses

On combine maintenant retrieval + g√©n√©ration.

In [None]:
# Charger un mod√®le de g√©n√©ration
print("Chargement du mod√®le de g√©n√©ration...")
generator = pipeline(
    "text2text-generation",
    model="google/flan-t5-base",
    device=0 if torch.cuda.is_available() else -1
)
print("Mod√®le charg√© !")

In [None]:
# ============================================
# EXERCICE 3 : Impl√©menter le RAG complet
# ============================================

class SimpleRAG:
    """
    Syst√®me RAG simple pour question-answering.
    """
    
    def __init__(self, documents, embedding_model, generator, top_k=3):
        self.documents = documents
        self.embedding_model = embedding_model
        self.generator = generator
        self.top_k = top_k
        
        # Cr√©er les embeddings et l'index
        print("Cr√©ation de l'index...")
        self.embeddings = self._create_embeddings()
        self.index = self._create_index()
        print(f"Index pr√™t avec {len(documents)} documents.")
    
    def _create_embeddings(self):
        texts = [f"{doc['title']}: {doc['content']}" for doc in self.documents]
        return self.embedding_model.encode(texts)
    
    def _create_index(self):
        embeddings = self.embeddings.copy()
        faiss.normalize_L2(embeddings)
        index = faiss.IndexFlatIP(embeddings.shape[1])
        index.add(embeddings)
        return index
    
    def retrieve(self, query):
        """R√©cup√®re les documents pertinents."""
        query_emb = self.embedding_model.encode([query])
        faiss.normalize_L2(query_emb)
        scores, indices = self.index.search(query_emb, self.top_k)
        
        results = []
        for score, idx in zip(scores[0], indices[0]):
            results.append({
                'document': self.documents[idx],
                'score': score
            })
        return results
    
    def generate_answer(self, query, context_docs):
        """G√©n√®re une r√©ponse bas√©e sur le contexte."""
        
        # TODO: Construire le prompt
        # Format: "Contexte: ... Question: ... R√©ponse:"
        
        # Construire le contexte
        context_parts = []
        for doc_info in context_docs:
            doc = doc_info['document']
            context_parts.append(f"- {doc['title']}: {doc['content']}")
        
        context = "\n".join(context_parts)
        
        # Construire le prompt
        prompt = f"""R√©ponds √† la question en utilisant uniquement les informations du contexte.

Contexte:
{context}

Question: {query}

R√©ponse:"""
        
        # G√©n√©rer
        response = self.generator(
            prompt,
            max_length=200,
            num_return_sequences=1
        )[0]['generated_text']
        
        return response
    
    def answer(self, query, verbose=True):
        """
        Pipeline complet : retrieve + generate.
        
        Args:
            query: Question de l'utilisateur
            verbose: Afficher les d√©tails
        
        Returns:
            dict avec 'answer', 'sources', 'query'
        """
        # 1. Retrieve
        retrieved = self.retrieve(query)
        
        if verbose:
            print(f"\n{'='*60}")
            print(f"Question: {query}")
            print(f"{'='*60}")
            print(f"\nDocuments trouv√©s:")
            for r in retrieved:
                print(f"  [{r['score']:.3f}] {r['document']['title']}")
        
        # 2. Generate
        answer = self.generate_answer(query, retrieved)
        
        if verbose:
            print(f"\nR√©ponse: {answer}")
            print(f"{'='*60}\n")
        
        return {
            'query': query,
            'answer': answer,
            'sources': [r['document']['title'] for r in retrieved]
        }

In [None]:
# Cr√©er le syst√®me RAG
rag = SimpleRAG(
    documents=documents,
    embedding_model=embedding_model,
    generator=generator,
    top_k=3
)

In [None]:
# Tests
questions = [
    "Qu'est-ce que l'attention dans les Transformers ?",
    "Quelle est la diff√©rence entre BERT et GPT ?",
    "Comment fonctionne le fine-tuning ?",
    "Qu'est-ce que le RAG et pourquoi est-ce utile ?",
    "Combien de param√®tres a GPT-3 ?",
]

for q in questions:
    result = rag.answer(q)

---

## 6. √âvaluation et Analyse

In [None]:
# Visualiser la similarit√© entre documents
from sklearn.metrics.pairwise import cosine_similarity

# Calculer la matrice de similarit√©
sim_matrix = cosine_similarity(doc_embeddings)

# Visualiser
plt.figure(figsize=(12, 10))
plt.imshow(sim_matrix, cmap='Blues')
plt.colorbar(label='Similarit√© cosinus')

# Labels
titles = [doc['title'][:15] + '...' if len(doc['title']) > 15 else doc['title'] 
          for doc in documents]
plt.xticks(range(len(documents)), titles, rotation=45, ha='right', fontsize=8)
plt.yticks(range(len(documents)), titles, fontsize=8)

plt.title('Similarit√© entre documents')
plt.tight_layout()
plt.show()

In [None]:
# Visualisation t-SNE des documents
from sklearn.manifold import TSNE

# R√©duire en 2D
tsne = TSNE(n_components=2, perplexity=5, random_state=42)
embeddings_2d = tsne.fit_transform(doc_embeddings)

# Cat√©gories manuelles pour la couleur
categories = {
    'Architecture': [0, 1, 2, 3],
    'Mod√®les': [4, 5, 6],
    'Entra√Ænement': [7, 8, 9],
    'Applications': [10, 11, 12, 13, 14]
}

colors = ['blue', 'green', 'orange', 'red']
color_map = {}
for i, (cat, indices) in enumerate(categories.items()):
    for idx in indices:
        color_map[idx] = colors[i]

# Plot
plt.figure(figsize=(12, 8))

for i, (x, y) in enumerate(embeddings_2d):
    plt.scatter(x, y, c=color_map.get(i, 'gray'), s=100)
    plt.annotate(documents[i]['title'][:20], (x, y), fontsize=8)

# L√©gende
for cat, color in zip(categories.keys(), colors):
    plt.scatter([], [], c=color, label=cat)
plt.legend()

plt.title('Documents dans l\'espace des embeddings (t-SNE)')
plt.xlabel('Dimension 1')
plt.ylabel('Dimension 2')
plt.tight_layout()
plt.show()

---

## 7. Am√©liorations possibles

In [None]:
# ============================================
# EXERCICE 4 : Ajouter le chunking
# ============================================

def chunk_document(doc, chunk_size=200, overlap=50):
    """
    D√©coupe un document en chunks plus petits.
    
    Args:
        doc: Dict avec 'content'
        chunk_size: Taille max d'un chunk (en mots)
        overlap: Chevauchement entre chunks
    
    Returns:
        Liste de chunks (dicts)
    """
    # TODO: Impl√©menter le chunking
    
    words = doc['content'].split()
    chunks = []
    
    for i in range(0, len(words), chunk_size - overlap):
        chunk_words = words[i:i + chunk_size]
        if len(chunk_words) < 20:  # Ignorer les chunks trop petits
            continue
            
        chunk = {
            'id': f"{doc['id']}_chunk_{len(chunks)}",
            'title': doc['title'],
            'content': ' '.join(chunk_words),
            'parent_id': doc['id']
        }
        chunks.append(chunk)
    
    # Si le document est petit, le garder tel quel
    if len(chunks) == 0:
        chunks.append(doc)
    
    return chunks

# Test
test_doc = documents[0]
chunks = chunk_document(test_doc, chunk_size=30, overlap=10)
print(f"Document original: {len(test_doc['content'].split())} mots")
print(f"Chunks cr√©√©s: {len(chunks)}")
for c in chunks:
    print(f"  - {len(c['content'].split())} mots: {c['content'][:50]}...")

In [None]:
# Interface interactive
def demo_rag():
    print("\n" + "="*50)
    print("RAG - Question Answering sur les Transformers")
    print("="*50)
    print("Posez vos questions sur les Transformers !")
    print("Tapez 'quit' pour quitter")
    print("="*50)
    
    while True:
        query = input("\nQuestion: ")
        if query.lower() == 'quit':
            break
        
        result = rag.answer(query)

# D√©commenter pour tester
# demo_rag()

---

## 8. R√©capitulatif

### Ce que vous avez appris

1. **RAG** : Combiner recherche documentaire et g√©n√©ration
2. **Embeddings** : Repr√©senter textes et requ√™tes dans le m√™me espace
3. **FAISS** : Index vectoriel pour recherche rapide
4. **Pipeline** : Retrieve ‚Üí Augment ‚Üí Generate

### Architecture RAG en production

| Composant | Options populaires |
|-----------|--------------------|
| Embeddings | OpenAI, Cohere, Sentence-BERT |
| Vector DB | Pinecone, Weaviate, Chroma, FAISS |
| LLM | GPT-4, Claude, Llama, Mistral |
| Framework | LangChain, LlamaIndex |

### Am√©liorations possibles

- **Chunking intelligent** : D√©couper par paragraphes/sections
- **Re-ranking** : R√©ordonner les r√©sultats avec un mod√®le cross-encoder
- **Hybrid search** : Combiner recherche s√©mantique et lexicale (BM25)
- **Query expansion** : Reformuler la question pour am√©liorer le recall

### Limitations

- Qualit√© d√©pend de la base documentaire
- Latence ajout√©e par la recherche
- Le LLM peut mal interpr√©ter le contexte
- Pas de raisonnement multi-√©tapes complexe

In [None]:
# Espace pour vos exp√©rimentations

# Ajoutez vos propres documents !
# nouveau_doc = {
#     "id": 100,
#     "title": "Mon sujet",
#     "content": "..."
# }

# Essayez diff√©rentes questions
ma_question = "Comment BERT est-il entra√Æn√© ?"
result = rag.answer(ma_question)