Cours Pédagogique : Introduction à RAG (Retrieval-Augmented Generation)
Objectifs du cours

    Comprendre le concept de RAG (Retrieval-Augmented Generation)

    Savoir comment RAG combine recherche documentaire et génération de texte

    Identifier les composants clés de RAG

    Reconnaître les avantages et limites de cette approche

    Préparer une implémentation pratique de RAG avec Python

1. Qu'est-ce que le RAG ?

Le RAG est une architecture hybride en NLP qui combine deux étapes :

    Retrieval (recherche) : extraire des documents pertinents d’une base externe

    Generation (génération) : produire une réponse en s’appuyant sur ces documents

Pourquoi RAG ?

Les modèles génératifs classiques (comme GPT) sont limités par :

    Des données figées (non mises à jour)

    Le risque de "hallucinations" (faits inventés)

    Une incapacité à s’adapter facilement à un domaine spécifique

RAG permet de s’affranchir de ces limites en accédant dynamiquement à des connaissances à jour.
2. Exemple simplifié : faire des cookies

Question utilisateur : "Comment faire des cookies aux pépites de chocolat ?"

    Recherche :

        Le système cherche des recettes dans sa base documentaire

        Il extrait par exemple : température du four, liste d’ingrédients, étapes de préparation

    Génération :

        Le modèle assemble ces données en une réponse complète, cohérente et contextualisée

3. Composants clés de RAG

    Retriever : encode la requête + documents en vecteurs, puis calcule leur similarité (ex : via FAISS, BERT)

    Generator : génère une réponse à partir de la requête et des documents retrouvés (ex : GPT)

    Base de connaissances externe : corpus documentaire utilisé pour la recherche (Wikipedia, articles, etc.)

4. Avantages de RAG

    Meilleure précision factuelle (moins d’hallucinations)

    Accès à des données récentes

    Adaptation à un domaine (médecine, finance, support client, etc.)

5. Limites de RAG

    Qualité des sources essentielle (biais ou informations obsolètes = réponses fausses)

    Coût computationnel plus élevé (recherche + génération)

    Latence accrue due à la phase de recherche

6. RAG vs Fine-Tuning
Critère	Fine-Tuning	RAG
Type de connaissance	Interne (modèle pré-entrainé)	Externe (documents récupérés)
Mise à jour des données	Nécessite un nouvel entraînement	Automatique via la base documentaire
Vitesse d'inférence	Rapide	Plus lente (temps de recherche)
Complexité système	Simple	Plus complexe (retriever + LLM)
Approche hybride

Il est possible de combiner les deux : fine-tuner un modèle sur un domaine + utiliser RAG pour les infos à jour.
7. Mise en pratique : construire un RAG minimaliste
Prérequis :

    Installer Ollama (pour exécuter les modèles en local)

    Télécharger deux modèles : un pour l’embedding, un pour la génération

    Charger un dataset (ex : "cat-facts.txt")

Étapes principales :

    Indexation :

        Générer les embeddings des documents (phrases sur les chats)

        Stocker les vecteurs dans une base (liste ou vectordb)

    Recherche :

        Embedding de la requête utilisateur

        Calcul de similarité cosinus avec les vecteurs indexés

        Retourner les documents les plus proches

    Génération :

        Créer un prompt contenant : [documents pertinents + question utilisateur]

        Appeler le LLM pour générer la réponse

Exemple Python (simplifié) :
import ollama

# Exemple de fonction pour ajouter un chunk
VECTOR_DB = []
def add_chunk_to_database(chunk):
  embedding = ollama.embed(model='model_embedding', input=chunk)['embeddings'][0]
  VECTOR_DB.append((chunk, embedding))
8. Quiz de vérification

    Quels sont les deux composants principaux de RAG ?

    Comment fonctionne le retriever ?

    Pourquoi RAG est-il plus adapté aux connaissances récentes ?

    Citez un cas d’usage concret de RAG.

9. Défi pratique

Améliorer le script Python :

    Ajouter un affichage formaté des documents retrouvés avec leur score de similarité

    Intégrer une interface CLI pour poser des questions dynamiquement

Conclusion

RAG est un cadre puissant qui combine le meilleur de deux mondes : la génération fluide de texte et l’accès à des faits précis. Il est particulièrement utile pour des domaines spécifiques où la mise à jour des connaissances est critique.

Pour progresser, tu peux maintenant passer à l’implémentation du mini-projet RAG avec Ollama.


### Optimisation d'une base de données vectorielle pour la recherche

Voici les principales méthodes pour optimiser une base de données vectorielle :

- **Réduction de dimension** : Utiliser des techniques comme PCA ou UMAP pour réduire la taille des vecteurs tout en conservant l'information essentielle, ce qui accélère la recherche.
- **Indexation efficace** : Employer des structures d’index spécialisées (FAISS, Annoy, HNSW) pour accélérer la recherche de voisins proches (approximate nearest neighbors).
- **Quantification** : Appliquer la quantification des vecteurs (ex : Product Quantization) pour réduire l’espace mémoire et accélérer les calculs.
- **Batching des requêtes** : Grouper plusieurs requêtes pour optimiser l’utilisation des ressources et réduire la latence.
- **Filtrage préalable** : Appliquer des filtres (par métadonnées ou catégories) avant la recherche vectorielle pour réduire le nombre de candidats.
- **Mise en cache** : Cacher les résultats des requêtes fréquentes pour éviter des calculs redondants.
- **Sharding et parallélisation** : Distribuer la base sur plusieurs machines ou threads pour gérer de grands volumes de données et améliorer la scalabilité.
- **Nettoyage et déduplication** : Supprimer les doublons et les vecteurs inutiles pour alléger la base et améliorer la pertinence des résultats.

Ces méthodes permettent d’obtenir des recherches plus rapides, moins coûteuses en ressources, et plus pertinentes.

#### Qu'est-ce que la quantification dans les bases de données vectorielles ?

La **quantification** est une technique qui consiste à représenter des vecteurs de grande dimension par des versions compressées, généralement à l’aide de codes plus courts. L’objectif est de réduire la taille mémoire occupée par chaque vecteur et d’accélérer les calculs de similarité lors de la recherche.

**Exemple :**
- Avec la *Product Quantization* (PQ), chaque vecteur est découpé en sous-vecteurs, puis chaque sous-vecteur est remplacé par l’indice de son centre le plus proche dans un dictionnaire appris.
- Au lieu de stocker des vecteurs en flottants (float32), on stocke des indices entiers, ce qui réduit fortement la mémoire utilisée.

**Avantages :**
- Permet de stocker des millions de vecteurs sur une seule machine.
- Accélère la recherche de voisins proches grâce à des calculs simplifiés.

**Limites :**
- Légère perte de précision due à l’approximation.
- Nécessite une phase d’apprentissage préalable pour construire les dictionnaires de quantification.

La quantification est donc un compromis entre rapidité, coût mémoire et précision, très utile pour les systèmes de recherche à grande échelle.