# ü§ñ Introduction au RAG (Retrieval-Augmented Generation)

## Objectifs p√©dagogiques

Dans ce notebook, vous allez d√©couvrir :
- üî§ **Les embeddings** : comment transformer du texte en vecteurs
- üìè **La similarit√© cosinus** : mesurer la proximit√© entre textes
- üìÑ **Le chunking** : d√©couper des documents longs
- üîç **La recherche vectorielle** avec FAISS
- üí¨ **Le RAG** : combiner recherche et g√©n√©ration de texte

## üì¶ Installation des d√©pendances

In [None]:
# Installation des packages n√©cessaires
!pip install -q transformers torch faiss-cpu langchain langchain-community sentence-transformers langgraph langchain-huggingface

In [None]:
# Imports n√©cessaires
import torch
import numpy as np
from transformers import AutoTokenizer, AutoModel, pipeline
from sentence_transformers import SentenceTransformer
import faiss
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_huggingface import HuggingFaceEmbeddings
from sklearn.metrics.pairwise import cosine_similarity
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Toutes les d√©pendances sont install√©es !")

## üî§ Partie 1 : Comprendre les Embeddings

Les embeddings transforment du texte en vecteurs num√©riques qui capturent le sens du texte.

In [None]:
# CONFIGURATION - Modifiez ces param√®tres !
# Essayez diff√©rents mod√®les d'embedding
EMBEDDING_MODEL_CONFIG = {
    # Mod√®le actuel (modifiez pour tester)
    "model_name": "sentence-transformers/all-MiniLM-L6-v2",  # Petit et rapide (384 dimensions)
    # Autres options √† essayer :
    # "sentence-transformers/all-mpnet-base-v2"  # Plus pr√©cis (768 dimensions)
    # "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"  # Multilingue (384 dimensions)
}

# Chargement du mod√®le
print(f"üîÑ Chargement du mod√®le : {EMBEDDING_MODEL_CONFIG['model_name']}")
embedder = SentenceTransformer(EMBEDDING_MODEL_CONFIG['model_name'])
print(f"‚úÖ Mod√®le charg√© ! Dimension des embeddings : {embedder.get_sentence_embedding_dimension()}")

In [None]:
# Exemples de phrases √† encoder
phrases_test = [
    "Le chat dort sur le canap√©",
    "Le f√©lin se repose sur le sofa",
    "La voiture roule sur l'autoroute",
    "Python est un langage de programmation"
]

# G√©n√©ration des embeddings
embeddings = embedder.encode(phrases_test)

print("üìä Analyse des embeddings :")
for i, phrase in enumerate(phrases_test):
    print(f"\nPhrase {i+1}: '{phrase}'")
    print(f"  - Dimension de l'embedding : {embeddings[i].shape}")
    print(f"  - Premiers √©l√©ments : {embeddings[i][:5].round(3)}...")

### ü§î Question 1 : Analyse des dimensions

**R√©pondez dans la cellule ci-dessous :**
- Quelle est la dimension des vecteurs d'embedding ?
- Pourquoi pensez-vous que des mod√®les diff√©rents ont des dimensions diff√©rentes ?
- Quel pourrait √™tre l'impact de la dimension sur les performances ?

**Votre r√©ponse :**

[√âcrivez votre r√©ponse ici]

## üìè Partie 2 : Similarit√© Cosinus

La similarit√© cosinus mesure √† quel point deux vecteurs pointent dans la m√™me direction (de -1 √† 1).

In [None]:
# Calcul de la matrice de similarit√©
similarity_matrix = cosine_similarity(embeddings)

# Affichage des r√©sultats
print("üìä Matrice de similarit√© cosinus :\n")
print("     ", end="")
for i in range(len(phrases_test)):
    print(f"  P{i+1}  ", end="")
print()

for i in range(len(phrases_test)):
    print(f"P{i+1}: ", end="")
    for j in range(len(phrases_test)):
        sim = similarity_matrix[i][j]
        print(f"{sim:.3f} ", end="")
    print()

# Interpr√©tation
print("\nüîç Interpr√©tation des similarit√©s :")
for i in range(len(phrases_test)):
    for j in range(i+1, len(phrases_test)):
        sim = similarity_matrix[i][j]
        print(f"\n'{phrases_test[i]}' <-> '{phrases_test[j]}'")
        print(f"  Similarit√© : {sim:.3f} - ", end="")
        if sim > 0.8:
            print("‚úÖ Tr√®s similaire")
        elif sim > 0.5:
            print("üî∂ Moyennement similaire")
        else:
            print("‚ùå Peu similaire")

In [None]:
# EXERCICE : Testez vos propres phrases !
# Modifiez ces phrases pour explorer la similarit√©
MES_PHRASES = [
    "Le machine learning est fascinant",
    "L'apprentissage automatique est passionnant",
    "J'aime manger des pizzas",
    "L'intelligence artificielle r√©volutionne le monde"
]

# Calcul des embeddings et similarit√©s
mes_embeddings = embedder.encode(MES_PHRASES)
mes_similarities = cosine_similarity(mes_embeddings)

# Affichage
print("üéØ Vos phrases et leurs similarit√©s :\n")
for i in range(len(MES_PHRASES)):
    for j in range(i+1, len(MES_PHRASES)):
        sim = mes_similarities[i][j]
        print(f"'{MES_PHRASES[i]}' <-> '{MES_PHRASES[j]}'")
        print(f"  ‚Üí Similarit√© : {sim:.3f}\n")

### ü§î Question 2 : Analyse de la similarit√©

**R√©pondez dans la cellule ci-dessous :**
- Quelles paires de phrases ont la plus haute similarit√© ? Pourquoi ?
- La similarit√© capture-t-elle bien le sens s√©mantique ?
- Que se passe-t-il avec des synonymes vs des mots diff√©rents ?

**Votre r√©ponse :**

[√âcrivez votre r√©ponse ici]

## üìÑ Partie 3 : Chunking de Documents

Les mod√®les ont des limites de contexte. Il faut d√©couper les documents longs en morceaux (chunks).

In [None]:
# Documents sources pour notre base de connaissances
DOCUMENTS = [
    {
        "titre": "Introduction √† Python",
        "contenu": """Python est un langage de programmation interpr√©t√©, de haut niveau et √† usage g√©n√©ral. 
        Cr√©√© par Guido van Rossum et publi√© pour la premi√®re fois en 1991, Python a une philosophie de conception 
        qui met l'accent sur la lisibilit√© du code, notamment en utilisant des espaces blancs significatifs. 
        Il fournit des constructions qui permettent une programmation claire √† petite et grande √©chelle. 
        Python dispose d'un syst√®me de type dynamique et d'une gestion automatique de la m√©moire. 
        Il prend en charge plusieurs paradigmes de programmation, notamment la programmation proc√©durale, 
        orient√©e objet et fonctionnelle. Python dispose d'une biblioth√®que standard compl√®te et vari√©e."""
    },
    {
        "titre": "Le Machine Learning",
        "contenu": """Le Machine Learning est une branche de l'intelligence artificielle qui permet aux syst√®mes 
        d'apprendre et de s'am√©liorer automatiquement √† partir de l'exp√©rience sans √™tre explicitement programm√©s. 
        Le ML se concentre sur le d√©veloppement de programmes informatiques qui peuvent acc√©der aux donn√©es 
        et les utiliser pour apprendre par eux-m√™mes. Le processus d'apprentissage commence par des observations 
        ou des donn√©es, afin de rechercher des mod√®les dans les donn√©es et de prendre de meilleures d√©cisions 
        √† l'avenir. L'objectif principal est de permettre aux ordinateurs d'apprendre automatiquement sans 
        intervention humaine et d'ajuster leurs actions en cons√©quence."""
    },
    {
        "titre": "Les R√©seaux de Neurones",
        "contenu": """Les r√©seaux de neurones artificiels sont des syst√®mes informatiques inspir√©s des r√©seaux 
        de neurones biologiques qui constituent le cerveau animal. Ces r√©seaux sont bas√©s sur une collection 
        d'unit√©s connect√©es appel√©es neurones artificiels, qui mod√©lisent vaguement les neurones biologiques. 
        Chaque connexion peut transmettre un signal d'un neurone √† un autre. Un neurone artificiel qui re√ßoit 
        un signal peut le traiter et signaler ensuite les neurones qui lui sont connect√©s. Dans les impl√©mentations 
        courantes, le signal est un nombre r√©el et la sortie de chaque neurone est calcul√©e par une fonction 
        non lin√©aire de la somme de ses entr√©es."""
    }
]

In [None]:
# CONFIGURATION DU CHUNKING - Modifiez ces param√®tres !
CHUNKING_CONFIG = {
    "chunk_size": 200,  # Taille des chunks en caract√®res (essayez 100, 200, 500)
    "chunk_overlap": 50,  # Chevauchement entre chunks (essayez 0, 50, 100)
    "separators": ["\n\n", "\n", ".", ",", " "]  # S√©parateurs pour d√©couper
}

# Cr√©ation du text splitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=CHUNKING_CONFIG["chunk_size"],
    chunk_overlap=CHUNKING_CONFIG["chunk_overlap"],
    separators=CHUNKING_CONFIG["separators"]
)

# Application du chunking
print(f"üìÑ Configuration du chunking :")
print(f"  - Taille des chunks : {CHUNKING_CONFIG['chunk_size']} caract√®res")
print(f"  - Chevauchement : {CHUNKING_CONFIG['chunk_overlap']} caract√®res\n")

all_chunks = []
for doc in DOCUMENTS:
    chunks = text_splitter.split_text(doc["contenu"])
    print(f"\nüìë Document : {doc['titre']}")
    print(f"  - Longueur originale : {len(doc['contenu'])} caract√®res")
    print(f"  - Nombre de chunks : {len(chunks)}")
    
    for i, chunk in enumerate(chunks):
        all_chunks.append({
            "source": doc["titre"],
            "chunk_id": i,
            "content": chunk
        })
        print(f"\n  Chunk {i+1} ({len(chunk)} caract√®res) :")
        print(f"  '{chunk[:80]}...'")

### ü§î Question 3 : Strat√©gies de chunking

**Exp√©rimentez en modifiant les param√®tres puis r√©pondez :**
- Que se passe-t-il quand vous augmentez/diminuez la taille des chunks ?
- Quel est l'effet du chevauchement (overlap) ?
- Quels sont les avantages/inconv√©nients de chunks petits vs grands ?

**Votre r√©ponse :**

[√âcrivez votre r√©ponse ici]

## üîç Partie 4 : Recherche Vectorielle avec FAISS

In [None]:
# Cr√©ation de la base vectorielle FAISS
print("üî® Construction de la base vectorielle FAISS...")

# Cr√©ation des embeddings pour tous les chunks
texts = [chunk["content"] for chunk in all_chunks]
metadatas = [{"source": chunk["source"], "chunk_id": chunk["chunk_id"]} for chunk in all_chunks]

# Initialisation du mod√®le d'embeddings pour Langchain
embeddings_model = HuggingFaceEmbeddings(
    model_name=EMBEDDING_MODEL_CONFIG["model_name"]
)

# Cr√©ation du vectorstore FAISS
vectorstore = FAISS.from_texts(
    texts=texts,
    embedding=embeddings_model,
    metadatas=metadatas
)

print(f"‚úÖ Base vectorielle cr√©√©e avec {len(texts)} chunks !")

In [None]:
# CONFIGURATION DE LA RECHERCHE - Modifiez ces param√®tres !
SEARCH_CONFIG = {
    "k": 3,  # Nombre de r√©sultats √† retourner (essayez 1, 3, 5)
    "search_type": "similarity",  # Type de recherche
}

# Questions de test
QUESTIONS_TEST = [
    "Qu'est-ce que Python ?",
    "Comment fonctionne l'apprentissage automatique ?",
    "Qu'est-ce qu'un neurone artificiel ?",
    "Qui a cr√©√© Python ?",
]

# Test de recherche
print(f"üîç Test de recherche (top-{SEARCH_CONFIG['k']} r√©sultats)\n")

for question in QUESTIONS_TEST:
    print(f"\n‚ùì Question : '{question}'")
    print("="*60)
    
    # Recherche
    results = vectorstore.similarity_search_with_score(
        question, 
        k=SEARCH_CONFIG["k"]
    )
    
    # Affichage des r√©sultats
    for i, (doc, score) in enumerate(results):
        print(f"\nüìÑ R√©sultat {i+1} (score: {score:.3f})")
        print(f"   Source : {doc.metadata['source']} - Chunk {doc.metadata['chunk_id']}")
        print(f"   Contenu : '{doc.page_content[:100]}...'")

### ü§î Question 4 : Analyse de la recherche

**Testez diff√©rentes valeurs de k puis r√©pondez :**
- Les r√©sultats retourn√©s sont-ils pertinents ?
- Comment le nombre de r√©sultats (k) affecte-t-il la qualit√© ?
- Que se passe-t-il si la question est ambigu√´ ?

**Votre r√©ponse :**

[√âcrivez votre r√©ponse ici]

## ü§ñ Partie 5 : Construction du syst√®me RAG complet

In [None]:
# Chargement du mod√®le de g√©n√©ration
print("ü§ñ Chargement du mod√®le de chat...")

# CONFIGURATION DU MOD√àLE - Modifiez ce param√®tre !
GENERATION_MODEL = "microsoft/DialoGPT-small"  # Mod√®le l√©ger pour Colab
# Autres options possibles :
# "google/flan-t5-small"  # Mod√®le T5 pour Q&A
# "facebook/blenderbot-400M-distill"  # Mod√®le de dialogue

# Chargement avec pipeline
generator = pipeline(
    "text-generation",
    model=GENERATION_MODEL,
    max_length=200,
    temperature=0.7,
    pad_token_id=50256
)

print(f"‚úÖ Mod√®le {GENERATION_MODEL} charg√© !")

In [None]:
# Fonction RAG simple
def rag_query(question, k=3, verbose=True):
    """
    Fonction RAG compl√®te :
    1. Recherche les documents pertinents
    2. Construit un contexte
    3. G√©n√®re une r√©ponse
    """
    if verbose:
        print(f"\nüîç Recherche pour : '{question}'")
    
    # √âtape 1 : Recherche
    docs = vectorstore.similarity_search(question, k=k)
    
    # √âtape 2 : Construction du contexte
    context = "\n\n".join([doc.page_content for doc in docs])
    
    if verbose:
        print(f"\nüìö Contexte trouv√© ({len(docs)} documents) :")
        for i, doc in enumerate(docs):
            print(f"  - Doc {i+1}: {doc.metadata['source']}")
    
    # √âtape 3 : G√©n√©ration
    prompt = f"""Contexte : {context}
    
Question : {question}
    
R√©ponse bas√©e sur le contexte : """
    
    response = generator(prompt, max_length=300, do_sample=True)[0]['generated_text']
    
    # Extraction de la r√©ponse
    answer = response.split("R√©ponse bas√©e sur le contexte : ")[-1].strip()
    
    return {
        "question": question,
        "context": context,
        "answer": answer,
        "sources": [doc.metadata for doc in docs]
    }

In [None]:
# TESTEZ LE SYST√àME RAG !
# Modifiez ces questions pour explorer
MES_QUESTIONS_RAG = [
    "Qu'est-ce que Python et qui l'a cr√©√© ?",
    "Comment fonctionne un r√©seau de neurones ?",
    "Quelle est la diff√©rence entre ML et les r√©seaux de neurones ?",
]

# Configuration
K_DOCUMENTS = 2  # Nombre de documents √† r√©cup√©rer (modifiez !)

# Test du RAG
for question in MES_QUESTIONS_RAG:
    print("\n" + "="*80)
    result = rag_query(question, k=K_DOCUMENTS, verbose=True)
    
    print(f"\nüí¨ R√©ponse g√©n√©r√©e :")
    print(f"{result['answer']}")
    
    print(f"\nüìå Sources utilis√©es :")
    for source in result['sources']:
        print(f"  - {source['source']} (chunk {source['chunk_id']})")

## üéØ Partie 6 : Utilisation de LangGraph pour orchestrer le RAG

In [None]:
from langgraph.graph import StateGraph, END
from typing import TypedDict, List, Dict

# D√©finition de l'√©tat
class RAGState(TypedDict):
    question: str
    context: str
    documents: List[Dict]
    answer: str
    k: int

# Fonctions pour chaque n≈ìud
def retrieve_documents(state: RAGState) -> RAGState:
    """R√©cup√®re les documents pertinents"""
    print("üìö √âtape 1: Recherche de documents...")
    docs = vectorstore.similarity_search(state["question"], k=state["k"])
    
    state["documents"] = [
        {"content": doc.page_content, "metadata": doc.metadata} 
        for doc in docs
    ]
    state["context"] = "\n\n".join([doc.page_content for doc in docs])
    
    print(f"  ‚Üí {len(docs)} documents trouv√©s")
    return state

def generate_answer(state: RAGState) -> RAGState:
    """G√©n√®re la r√©ponse bas√©e sur le contexte"""
    print("ü§ñ √âtape 2: G√©n√©ration de la r√©ponse...")
    
    prompt = f"""Contexte : {state['context']}
    
Question : {state['question']}
    
R√©ponse : """
    
    # Simulation de g√©n√©ration (remplacez par votre mod√®le)
    # Pour simplifier, on utilise une r√©ponse basique
    if "Python" in state["question"]:
        state["answer"] = "D'apr√®s le contexte, Python est un langage de programmation cr√©√© par Guido van Rossum en 1991."
    elif "r√©seau" in state["question"] or "neurone" in state["question"]:
        state["answer"] = "Les r√©seaux de neurones sont des syst√®mes inspir√©s du cerveau, compos√©s de neurones artificiels connect√©s."
    else:
        state["answer"] = "D'apr√®s les documents trouv√©s, " + state["context"][:150] + "..."
    
    print("  ‚Üí R√©ponse g√©n√©r√©e")
    return state

# Construction du graphe
workflow = StateGraph(RAGState)

# Ajout des n≈ìuds
workflow.add_node("retrieve", retrieve_documents)
workflow.add_node("generate", generate_answer)

# D√©finition du flux
workflow.set_entry_point("retrieve")
workflow.add_edge("retrieve", "generate")
workflow.add_edge("generate", END)

# Compilation
rag_app = workflow.compile()

print("‚úÖ Graphe LangGraph cr√©√© !")

In [None]:
# Test du syst√®me RAG avec LangGraph
print("üöÄ Test du RAG avec LangGraph\n")

# CONFIGURATION - Modifiez ces param√®tres !
test_queries = [
    {"question": "Explique-moi Python", "k": 2},
    {"question": "Comment apprennent les machines ?", "k": 3},
]

for query in test_queries:
    print(f"\n{'='*60}")
    print(f"‚ùì Question : {query['question']}")
    print(f"üìä Param√®tres : k={query['k']}")
    print(f"{'='*60}\n")
    
    # Ex√©cution du workflow
    result = rag_app.invoke(query)
    
    print(f"\nüí¨ R√©ponse finale : {result['answer']}")
    print(f"\nüìå Documents utilis√©s :")
    for doc in result['documents']:
        print(f"  - {doc['metadata']['source']}")

### ü§î Question 5 : Analyse du syst√®me RAG complet

**Apr√®s avoir test√© le syst√®me, r√©pondez :**
- Quels sont les avantages d'utiliser un syst√®me RAG vs un LLM seul ?
- Comment le nombre de documents r√©cup√©r√©s (k) affecte-t-il la r√©ponse ?
- Quelles am√©liorations pourriez-vous sugg√©rer ?

**Votre r√©ponse :**

[√âcrivez votre r√©ponse ici]

## üìä Exp√©rience finale : Comparaison des configurations

Testez diff√©rentes configurations pour comprendre leur impact.

In [None]:
# EXP√âRIENCE : Modifiez ces configurations !
EXPERIMENTS = [
    {
        "name": "Config 1 : Chunks petits, peu de docs",
        "chunk_size": 100,
        "chunk_overlap": 20,
        "k_documents": 1
    },
    {
        "name": "Config 2 : Chunks moyens, plus de docs",
        "chunk_size": 300,
        "chunk_overlap": 50,
        "k_documents": 3
    },
    {
        "name": "Config 3 : Grands chunks, beaucoup d'overlap",
        "chunk_size": 500,
        "chunk_overlap": 150,
        "k_documents": 2
    }
]

TEST_QUESTION = "Comment Python g√®re-t-il la m√©moire ?"

print(f"üß™ Test de la question : '{TEST_QUESTION}'\n")

for config in EXPERIMENTS:
    print(f"\n{'='*60}")
    print(f"üîß {config['name']}")
    print(f"  - Chunk size: {config['chunk_size']}")
    print(f"  - Overlap: {config['chunk_overlap']}")
    print(f"  - K documents: {config['k_documents']}")
    
    # Note : Dans un vrai test, vous recr√©eriez le vectorstore avec ces param√®tres
    # Ici, on simule juste l'effet
    print(f"\n  ‚Üí Impact attendu :")
    if config['chunk_size'] < 200:
        print("    ‚Ä¢ Contexte plus pr√©cis mais potentiellement incomplet")
    else:
        print("    ‚Ä¢ Contexte plus complet mais potentiellement moins focalis√©")
    
    if config['k_documents'] > 2:
        print("    ‚Ä¢ Plus d'information mais risque de bruit")
    else:
        print("    ‚Ä¢ Information focalis√©e mais peut manquer des d√©tails")

## üéì R√©capitulatif et points cl√©s

### Ce que vous avez appris :

1. **Embeddings** :
   - Transformation de texte en vecteurs num√©riques
   - Diff√©rents mod√®les = diff√©rentes dimensions
   - Capture du sens s√©mantique

2. **Similarit√© cosinus** :
   - Mesure de proximit√© s√©mantique (0 √† 1)
   - Fonctionne bien avec les synonymes
   - Base de la recherche vectorielle

3. **Chunking** :
   - N√©cessaire pour les limites de contexte
   - Trade-off : pr√©cision vs compl√©tude
   - L'overlap aide √† maintenir le contexte

4. **FAISS** :
   - Recherche efficace dans l'espace vectoriel
   - Permet de retrouver rapidement les documents pertinents

5. **RAG** :
   - Combine recherche et g√©n√©ration
   - Plus pr√©cis qu'un LLM seul
   - Permet d'utiliser des connaissances sp√©cifiques

### üí° Conseils pour optimiser un syst√®me RAG :

- **Qualit√© des embeddings** : Testez diff√©rents mod√®les
- **Strat√©gie de chunking** : Adaptez √† votre contenu
- **Nombre de documents (k)** : √âquilibre pr√©cision/bruit
- **Prompt engineering** : Guidez bien le mod√®le de g√©n√©ration
- **M√©tadonn√©es** : Utilisez-les pour filtrer/classer

### üöÄ Pour aller plus loin :

- Essayez d'autres mod√®les d'embedding (multilingues, domaine-sp√©cifique)
- Explorez des strat√©gies de chunking avanc√©es (s√©mantique, par paragraphe)
- Testez diff√©rents algorithmes FAISS (IVF, HNSW)
- Impl√©mentez du re-ranking des r√©sultats
- Ajoutez de la m√©moire conversationnelle