<a href="https://colab.research.google.com/github/RMoulla/MLW_Septembre/blob/main/TP_RAG_APP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **TP : création d'un système RAG (Retrieval-Augmented Generation)**

Le **Retrieval-Augmented Generation (RAG)** est une approche récente de recherche d'information à partir de documents ; elle combine les capacités de récupération d'informations (information retrieval) avec celles des modèles de génération de texte. Cette méthode permet d'améliorer la pertinence et la précision des réponses en s'appuyant sur un corpus de documents préalablement indexés. En récupérant les passages les plus pertinents en réponse à une requête spécifique, RAG fournit un contexte enrichi qui guide la génération de réponses plus informées et contextuellement appropriées.

L'objectif de ce  TP est de vous initier à la conception et à la mise en œuvre d'un système RAG en utilisant Python, FAISS pour l'indexation et la recherche d'embeddings, ainsi que l'API d'OpenAI pour la génération des réponses. À travers ce TP, vous apprendrez à extraire le texte des documents PDF, à générer et indexer des embeddings, à implémenter des mécanismes de recherche efficaces, et à intégrer ces composants pour créer une application capable de fournir des réponses précises basées sur le contenu des documents fournis.

---



---

## **Instructions**


Le fichier `rag.py` contient plusieurs fonctions clés à compléter :

- **Extraction de Texte** :
  - Extraire le contenu textuel des fichiers PDF présents dans le dossier `documents/`.

- **Segmentation du Texte** :
  - Diviser le texte extrait en segments plus petits pour respecter les limites de tokens des modèles d'OpenAI.

- **Génération d'Embeddings** :
  - Utiliser l'API OpenAI pour générer des embeddings pour chaque segment de texte.

- **Indexation avec FAISS** :
  - Indexer les embeddings générés pour permettre une recherche efficace et rapide des passages pertinents.

- **Recherche et Génération de Réponses** :
  - Rechercher les passages les plus pertinents en fonction d'une requête utilisateur et utiliser GPT-4 pour générer une réponse basée sur ces passages.

### **Complétion des fonctions dans `rag.py`**

Votre tâche principale est de compléter les fonctions incomplètes dans `rag.py`. Voici un aperçu des fonctions à travailler :

- **`extract_text_from_pdf(file_path)`** :
  - Implémentez la logique pour extraire le texte d'un fichier PDF en utilisant une bibliothèque appropriée (par exemple, `pdfplumber`).

- **`segment_text(text, max_tokens)`** :
  - Divisez le texte en segments respectant la limite de tokens spécifiée.

- **`embed_text(text)`** :
  - Intégrez le texte en utilisant l'API d'OpenAI pour obtenir un vecteur d'embedding.

- **`build_index()`** :
  - Construisez l'index FAISS en traitant tous les documents dans le dossier `documents/`.

- **`search(query, top_k)`** :
  - Recherchez les passages les plus pertinents dans l'index FAISS en fonction de la requête utilisateur.

- **`generate_response(query, context)`** :
  - Utilisez GPT-4 pour générer une réponse basée sur le contexte fourni par les passages pertinents.

- **`rag(query, top_k)`** :
  - Combinez les étapes de recherche et de génération pour fournir une réponse complète à la requête de l'utilisateur.
