<a href="https://colab.research.google.com/github/gabincharlemagne/NLP/blob/main/4_RAG_pdf.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Travaux Pratiques : Construire un RAG sur un seul document avec Google Colab

## Objectif

L'objectif de ce TP est d'apprendre à mettre en place un système de RAG (Retrieval-Augmented Generation) à partir d'un seul document en utilisant Google Colab. Nous allons :

1. Charger un document texte.

2. Extraire et indexer son contenu.

3. Implémenter une recherche de passage pertinente.

4. Utiliser un modèle de génération pour répondre à des questions sur le document.

## 1. Installer les packages

In [1]:
!pip install chromadb langchain-community langchain-google-genai



## 2. Configurer l'API de Google AI Studio

Nous allons configurer l'API Gemini de Google AI Studio pour intéragir avec un modèle de génération.

In [2]:
import os

os.environ["GOOGLE_API_KEY"] = "AIzaSyDl3AzHPqefJLbYgDc_MywAbGtdEpqr4gE"

## 3. Charger un document texte

Nous allons utiliser un fichier texte comme source d'information. Vous pouvez soit en uploader un, soit utiliser un texte d'exemple.

In [3]:
from google.colab import files

uploaded = files.upload()  # Permet d'uploader un fichier texte

# Lire le contenu du fichier
file_name = list(uploaded.keys())[0]
with open(file_name, 'r', encoding='utf-8') as file:
    document_text = file.read()

print("Aperçu du document:", document_text[:500])  # Affiche un extrait du document

Saving 4 - Compte rendu exercice recherche d'information.txt to 4 - Compte rendu exercice recherche d'information.txt
Aperçu du document: ﻿Compte rendu 1 : Réunion de lancement (Semaine 1)
Date : Lundi 6 novembre 2024
Participants : 6 (Product Owner, 4 développeurs, UX Designer)
Objectif : Définir la vision du projet et les grandes étapes.
Points discutés :
1. Objectifs principaux :
   * Créer un réseau social axé sur le partage de contenus courts et visuels.
   * Mettre l'accent sur une expérience utilisateur fluide et intuitive.
2. Décisions clés :
   * Technologie back-end : Node.js.
   * Technologie front-end : React.js.
   * 


## 4. Segmenter et indexer le document

Nous allons découper le document en morceaux pour faciliter la recherche.

Utilisez la fonction "RecursiveCharacterTextSplitter" de lanchain pour découper le document avec une taille de chunk de 500 et un overlap de 50.

In [5]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Découpage du document en morceaux de 500 caractères avec un chevauchement de 50
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)

# Appliquez text_splitter sur notre document
documents = text_splitter.split_text(document_text)

print(f"Nombre de segments créés : {len(documents)}")

Nombre de segments créés : 10


## 5. Créer une base de données vectorielle

Nous allons utiliser ChromaDB pour stocker et interroger notre document.

In [9]:
import chromadb
from langchain.vectorstores import Chroma
from langchain_google_genai import GoogleGenerativeAIEmbeddings

import time

# Utiliser le bon modèle d'embedding
embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")  # Modèle valide pour embeddings

# Initialiser ChromaDB pour stocker les embeddings
vectorstore = Chroma(embedding_function=embeddings, persist_directory="./chroma_db")

# Ajout des documents avec un délai pour éviter les erreurs
for i, doc in enumerate(documents):
    try:
        vectorstore.add_texts([doc])
        print(f"✅ Document {i+1}/{len(documents)} ajouté avec succès.")
    except Exception as e:
        print(f"❌ Erreur pour le document {i+1}: {str(e)}")
    time.sleep(2)

print("🚀 Indexation terminée avec succès !")

✅ Document 1/10 ajouté avec succès.
✅ Document 2/10 ajouté avec succès.
✅ Document 3/10 ajouté avec succès.
✅ Document 4/10 ajouté avec succès.
✅ Document 5/10 ajouté avec succès.
✅ Document 6/10 ajouté avec succès.
✅ Document 7/10 ajouté avec succès.
✅ Document 8/10 ajouté avec succès.
✅ Document 9/10 ajouté avec succès.
✅ Document 10/10 ajouté avec succès.
🚀 Indexation terminée avec succès !


## 6. Rechercher des passages pertinents

Nous allons interroger notre base pour retrouver les passages les plus pertinents.

In [11]:
query = "Quel est le sujet principal du document ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = vectorstore.similarity_search(query, k=3)

# Affichage des passages retrouvés
print("📌 Passages retrouvés :")
for i, doc in enumerate(retrieved_docs):
    print(f"\n🔹 Passage {i+1} :")
    print(doc.page_content)

📌 Passages retrouvés :

🔹 Passage 1 :
﻿Compte rendu 1 : Réunion de lancement (Semaine 1)
Date : Lundi 6 novembre 2024
Participants : 6 (Product Owner, 4 développeurs, UX Designer)
Objectif : Définir la vision du projet et les grandes étapes.
Points discutés :
1. Objectifs principaux :
   * Créer un réseau social axé sur le partage de contenus courts et visuels.
   * Mettre l'accent sur une expérience utilisateur fluide et intuitive.
2. Décisions clés :
   * Technologie back-end : Node.js.
   * Technologie front-end : React.js.

🔹 Passage 2 :
Compte rendu 2 : Réunion d'architecture technique (Semaine 2)
**Date : Vendredi 10 novembre 2024
Participants : 5 (Lead Dev, DevOps, 3 développeurs)
Objectif : Définir les composants techniques.
Points discutés :
1. Structure de l'application :
   * Microservices pour l'évolutivité.
   * API REST pour la communication entre services.
2. Infrastructure :
   * Utilisation de AWS (S3 pour le stockage, EC2 pour les serveurs).
   * CI/CD avec GitHub Act

In [12]:
query = "Pour quand est prévu la sortie de la beta ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = vectorstore.similarity_search(query, k=3)
# Affichage des passages retrouvés
print("📌 Passages retrouvés :")
for i, doc in enumerate(retrieved_docs):
    print(f"\n🔹 Passage {i+1} :")
    print(doc.page_content)

📌 Passages retrouvés :

🔹 Passage 1 :
Compte rendu 8 : Réunion de revue du MVP (Semaine 8)
**Date : Vendredi 1 janvier 2024
Participants : Toute l’équipe
Objectif : Valider le MVP avant le lancement en bêta-test.
Points discutés :
1. Fonctionnalités validées :
   * Création de comptes.
   * Fil d’actualités.
   * Publication de posts avec images.
2. Axes d’amélioration :
   * Optimisation des performances.
   * Ajout d’une barre de recherche pour le fil.
Décision finale : Lancement de la version bêta prévu le 32 décembre 2024.

🔹 Passage 2 :
Compte rendu 3 : Réunion UX/UI (Semaine 3)
**Date : Mercredi 15 novembre 2024
Participants : 4 (UX Designer, Product Owner, 2 développeurs front-end)
Objectif : Finaliser les maquettes du MVP.
Points discutés :
1. Principales fonctionnalités du MVP :
   * Création de comptes et authentification.
   * Publication de posts avec images.
   * Fil d’actualités personnalisé.
2. Design :
   * Palette de couleurs choisie : Bleu/Blanc/Gris.
   * Interface m

## 7. Générer une réponse avec un LLM

Nous utilisons l'API Gemini de Google AI Studio pour génrer une réponse basée sur les passages récupéres.

In [13]:
import google.generativeai as genai

async def generate_response(prompt):

    # Initialisez le modèle "gemini-pro" en utilisant la fonction GenerativeModel
    model = genai.GenerativeModel("gemini-pro")

    # Utilisez la fonction 'generate_content' pour générer la réponse de 'prompt'
    response = model.generate_content(prompt)

    return response.text.strip()

# Q1

In [14]:
query = "Pour quand est prévu la sortie de la beta ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = vectorstore.similarity_search(query, k=3)

print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)

Passages retrouvés :
- Compte rendu 8 : Réunion de revue du MVP (Semaine 8)
**Date : Vendredi 1 janvier 2024
Participants : Toute l’équipe
Objectif : Valider le MVP avant le lancement en bêta-test.
Points discutés :
1. Fonctionnalités validées :
   * Création de comptes.
   * Fil d’actualités.
   * Publication de posts avec images.
2. Axes d’amélioration :
   * Optimisation des performances.
   * Ajout d’une barre de recherche pour le fil.
Décision finale : Lancement de la version bêta prévu le 32 décembre 2024.
- Compte rendu 3 : Réunion UX/UI (Semaine 3)
**Date : Mercredi 15 novembre 2024
Participants : 4 (UX Designer, Product Owner, 2 développeurs front-end)
Objectif : Finaliser les maquettes du MVP.
Points discutés :
1. Principales fonctionnalités du MVP :
   * Création de comptes et authentification.
   * Publication de posts avec images.
   * Fil d’actualités personnalisé.
2. Design :
   * Palette de couleurs choisie : Bleu/Blanc/Gris.
   * Interface minimaliste et responsive.
__

In [15]:
# Construire le prompt basé sur les passages retrouvés
context = "\n".join([doc.page_content for doc in retrieved_docs])

# Ecrivez votre prompt pour ordonner la recherche en fonction de ce qui a été trouvé dans 'context' par rapport à ce que veut l'utilisateur dans 'query'
prompt = f"""
Tu es un assistant intelligent. Voici des extraits d'un document qui peuvent répondre à la question de l'utilisateur :
{context}

Réponds de manière claire et précise à la question suivante :
"{query}"
"""

# Obtenir la réponse en utilisant la fonction 'generate_response'
response = await generate_response(prompt)
print("Réponse générée :", response)

Réponse générée : 32 décembre 2024


# Q2

In [16]:
query = "Quel est le sujet principal du document ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = vectorstore.similarity_search(query, k=3)

print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)

Passages retrouvés :
- ﻿Compte rendu 1 : Réunion de lancement (Semaine 1)
Date : Lundi 6 novembre 2024
Participants : 6 (Product Owner, 4 développeurs, UX Designer)
Objectif : Définir la vision du projet et les grandes étapes.
Points discutés :
1. Objectifs principaux :
   * Créer un réseau social axé sur le partage de contenus courts et visuels.
   * Mettre l'accent sur une expérience utilisateur fluide et intuitive.
2. Décisions clés :
   * Technologie back-end : Node.js.
   * Technologie front-end : React.js.
- Compte rendu 2 : Réunion d'architecture technique (Semaine 2)
**Date : Vendredi 10 novembre 2024
Participants : 5 (Lead Dev, DevOps, 3 développeurs)
Objectif : Définir les composants techniques.
Points discutés :
1. Structure de l'application :
   * Microservices pour l'évolutivité.
   * API REST pour la communication entre services.
2. Infrastructure :
   * Utilisation de AWS (S3 pour le stockage, EC2 pour les serveurs).
   * CI/CD avec GitHub Actions.
3. Décisions clés :
- 

In [17]:
# Construire le prompt basé sur les passages retrouvés
context = "\n".join([doc.page_content for doc in retrieved_docs])

# Ecrivez votre prompt pour ordonner la recherche en fonction de ce qui a été trouvé dans 'context' par rapport à ce que veut l'utilisateur dans 'query'
prompt = f"""
Tu es un assistant intelligent. Voici des extraits d'un document qui peuvent répondre à la question de l'utilisateur :
{context}

Réponds de manière claire et précise à la question suivante :
"{query}"
"""

# Obtenir la réponse en utilisant la fonction 'generate_response'
response = await generate_response(prompt)
print("Réponse générée :", response)

Réponse générée : Les réunions de développement d'un réseau social axé sur le partage de contenu court et visuel.


# Q3

In [21]:
query = "Y a t'il des anomalies dans le document ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = vectorstore.similarity_search(query, k=3)

print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)

Passages retrouvés :
- Compte rendu 5 : Réunion de revue de sprint (Semaine 5)
**Date : Vendredi 24 novembre 2024
Participants : 6 (Scrum Master, Product Owner, 4 développeurs)
Objectif : Valider les résultats du sprint 1.
Points discutés :
1. Tâches accomplies :
   * Authentification utilisateur fonctionnelle.
   * Base de données initialisée avec les schémas principaux.
2. Points bloquants :
   * Problèmes de compatibilité avec une bibliothèque Node.js.
________________
- Compte rendu 7 : Réunion d'intégration (Semaine 7)
**Date : Lundi 4 décembre 2024
Participants : 6 (Toute l’équipe)
Objectif : Tester l'intégration des modules back-end et front-end.
Points discutés :
1. Tests réalisés :
   * Connexion entre l’API et l’interface utilisateur.
   * Publication d’un post basique.
2. Problèmes détectés :
   * Temps de réponse élevé pour le chargement des images.
________________
- Compte rendu 8 : Réunion de revue du MVP (Semaine 8)
**Date : Vendredi 1 janvier 2024
Participants : Toute 

In [22]:
# Construire le prompt basé sur les passages retrouvés
context = "\n".join([doc.page_content for doc in retrieved_docs])

# Ecrivez votre prompt pour ordonner la recherche en fonction de ce qui a été trouvé dans 'context' par rapport à ce que veut l'utilisateur dans 'query'
prompt = f"""
Tu es un assistant intelligent. Voici des extraits d'un document qui peuvent répondre à la question de l'utilisateur :
{context}

Réponds de manière claire et précise à la question suivante :
"{query}"
"""

# Obtenir la réponse en utilisant la fonction 'generate_response'
response = await generate_response(prompt)
print("Réponse générée :", response)

Réponse générée : Il semble y avoir une anomalie dans la date du Compte rendu 8 :

* Le compte rendu est intitulé "Réunion de revue du MVP (Semaine 8)", mais la date indiquée est "Vendredi 1 janvier 2024", qui ne correspond pas à la semaine 8 de novembre 2024.
