<a href="https://colab.research.google.com/github/gabincharlemagne/NLP/blob/main/4_RAG_pdf.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Travaux Pratiques : Construire un RAG sur un seul document avec Google Colab

## Objectif

L'objectif de ce TP est d'apprendre √† mettre en place un syst√®me de RAG (Retrieval-Augmented Generation) √† partir d'un seul document en utilisant Google Colab. Nous allons :

1. Charger un document texte.

2. Extraire et indexer son contenu.

3. Impl√©menter une recherche de passage pertinente.

4. Utiliser un mod√®le de g√©n√©ration pour r√©pondre √† des questions sur le document.

## 1. Installer les packages

In [1]:
!pip install chromadb langchain-community langchain-google-genai



## 2. Configurer l'API de Google AI Studio

Nous allons configurer l'API Gemini de Google AI Studio pour int√©ragir avec un mod√®le de g√©n√©ration.

In [2]:
import os

os.environ["GOOGLE_API_KEY"] = "AIzaSyDl3AzHPqefJLbYgDc_MywAbGtdEpqr4gE"

## 3. Charger un document texte

Nous allons utiliser un fichier texte comme source d'information. Vous pouvez soit en uploader un, soit utiliser un texte d'exemple.

In [3]:
from google.colab import files

uploaded = files.upload()  # Permet d'uploader un fichier texte

# Lire le contenu du fichier
file_name = list(uploaded.keys())[0]
with open(file_name, 'r', encoding='utf-8') as file:
    document_text = file.read()

print("Aper√ßu du document:", document_text[:500])  # Affiche un extrait du document

Saving 4 - Compte rendu exercice recherche d'information.txt to 4 - Compte rendu exercice recherche d'information.txt
Aper√ßu du document: ÔªøCompte rendu 1 : R√©union de lancement (Semaine 1)
Date : Lundi 6 novembre 2024
Participants : 6 (Product Owner, 4 d√©veloppeurs, UX Designer)
Objectif : D√©finir la vision du projet et les grandes √©tapes.
Points discut√©s :
1. Objectifs principaux :
   * Cr√©er un r√©seau social ax√© sur le partage de contenus courts et visuels.
   * Mettre l'accent sur une exp√©rience utilisateur fluide et intuitive.
2. D√©cisions cl√©s :
   * Technologie back-end : Node.js.
   * Technologie front-end : React.js.
   * 


## 4. Segmenter et indexer le document

Nous allons d√©couper le document en morceaux pour faciliter la recherche.

Utilisez la fonction "RecursiveCharacterTextSplitter" de lanchain pour d√©couper le document avec une taille de chunk de 500 et un overlap de 50.

In [5]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

# D√©coupage du document en morceaux de 500 caract√®res avec un chevauchement de 50
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)

# Appliquez text_splitter sur notre document
documents = text_splitter.split_text(document_text)

print(f"Nombre de segments cr√©√©s : {len(documents)}")

Nombre de segments cr√©√©s : 10


## 5. Cr√©er une base de donn√©es vectorielle

Nous allons utiliser ChromaDB pour stocker et interroger notre document.

In [9]:
import chromadb
from langchain.vectorstores import Chroma
from langchain_google_genai import GoogleGenerativeAIEmbeddings

import time

# Utiliser le bon mod√®le d'embedding
embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")  # Mod√®le valide pour embeddings

# Initialiser ChromaDB pour stocker les embeddings
vectorstore = Chroma(embedding_function=embeddings, persist_directory="./chroma_db")

# Ajout des documents avec un d√©lai pour √©viter les erreurs
for i, doc in enumerate(documents):
    try:
        vectorstore.add_texts([doc])
        print(f"‚úÖ Document {i+1}/{len(documents)} ajout√© avec succ√®s.")
    except Exception as e:
        print(f"‚ùå Erreur pour le document {i+1}: {str(e)}")
    time.sleep(2)

print("üöÄ Indexation termin√©e avec succ√®s !")

‚úÖ Document 1/10 ajout√© avec succ√®s.
‚úÖ Document 2/10 ajout√© avec succ√®s.
‚úÖ Document 3/10 ajout√© avec succ√®s.
‚úÖ Document 4/10 ajout√© avec succ√®s.
‚úÖ Document 5/10 ajout√© avec succ√®s.
‚úÖ Document 6/10 ajout√© avec succ√®s.
‚úÖ Document 7/10 ajout√© avec succ√®s.
‚úÖ Document 8/10 ajout√© avec succ√®s.
‚úÖ Document 9/10 ajout√© avec succ√®s.
‚úÖ Document 10/10 ajout√© avec succ√®s.
üöÄ Indexation termin√©e avec succ√®s !


## 6. Rechercher des passages pertinents

Nous allons interroger notre base pour retrouver les passages les plus pertinents.

In [11]:
query = "Quel est le sujet principal du document ?"

# Utilisez la m√©thode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = vectorstore.similarity_search(query, k=3)

# Affichage des passages retrouv√©s
print("üìå Passages retrouv√©s :")
for i, doc in enumerate(retrieved_docs):
    print(f"\nüîπ Passage {i+1} :")
    print(doc.page_content)

üìå Passages retrouv√©s :

üîπ Passage 1 :
ÔªøCompte rendu 1 : R√©union de lancement (Semaine 1)
Date : Lundi 6 novembre 2024
Participants : 6 (Product Owner, 4 d√©veloppeurs, UX Designer)
Objectif : D√©finir la vision du projet et les grandes √©tapes.
Points discut√©s :
1. Objectifs principaux :
   * Cr√©er un r√©seau social ax√© sur le partage de contenus courts et visuels.
   * Mettre l'accent sur une exp√©rience utilisateur fluide et intuitive.
2. D√©cisions cl√©s :
   * Technologie back-end : Node.js.
   * Technologie front-end : React.js.

üîπ Passage 2 :
Compte rendu 2 : R√©union d'architecture technique (Semaine 2)
**Date : Vendredi 10 novembre 2024
Participants : 5 (Lead Dev, DevOps, 3 d√©veloppeurs)
Objectif : D√©finir les composants techniques.
Points discut√©s :
1. Structure de l'application :
   * Microservices pour l'√©volutivit√©.
   * API REST pour la communication entre services.
2. Infrastructure :
   * Utilisation de AWS (S3 pour le stockage, EC2 pour les serveurs

In [12]:
query = "Pour quand est pr√©vu la sortie de la beta ?"

# Utilisez la m√©thode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = vectorstore.similarity_search(query, k=3)
# Affichage des passages retrouv√©s
print("üìå Passages retrouv√©s :")
for i, doc in enumerate(retrieved_docs):
    print(f"\nüîπ Passage {i+1} :")
    print(doc.page_content)

üìå Passages retrouv√©s :

üîπ Passage 1 :
Compte rendu 8 : R√©union de revue du MVP (Semaine 8)
**Date : Vendredi 1 janvier 2024
Participants : Toute l‚Äô√©quipe
Objectif : Valider le MVP avant le lancement en b√™ta-test.
Points discut√©s :
1. Fonctionnalit√©s valid√©es :
   * Cr√©ation de comptes.
   * Fil d‚Äôactualit√©s.
   * Publication de posts avec images.
2. Axes d‚Äôam√©lioration :
   * Optimisation des performances.
   * Ajout d‚Äôune barre de recherche pour le fil.
D√©cision finale : Lancement de la version b√™ta pr√©vu le 32 d√©cembre 2024.

üîπ Passage 2 :
Compte rendu 3 : R√©union UX/UI (Semaine 3)
**Date : Mercredi 15 novembre 2024
Participants : 4 (UX Designer, Product Owner, 2 d√©veloppeurs front-end)
Objectif : Finaliser les maquettes du MVP.
Points discut√©s :
1. Principales fonctionnalit√©s du MVP :
   * Cr√©ation de comptes et authentification.
   * Publication de posts avec images.
   * Fil d‚Äôactualit√©s personnalis√©.
2. Design :
   * Palette de couleurs cho

## 7. G√©n√©rer une r√©ponse avec un LLM

Nous utilisons l'API Gemini de Google AI Studio pour g√©nrer une r√©ponse bas√©e sur les passages r√©cup√©res.

In [13]:
import google.generativeai as genai

async def generate_response(prompt):

    # Initialisez le mod√®le "gemini-pro" en utilisant la fonction GenerativeModel
    model = genai.GenerativeModel("gemini-pro")

    # Utilisez la fonction 'generate_content' pour g√©n√©rer la r√©ponse de 'prompt'
    response = model.generate_content(prompt)

    return response.text.strip()

# Q1

In [14]:
query = "Pour quand est pr√©vu la sortie de la beta ?"

# Utilisez la m√©thode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = vectorstore.similarity_search(query, k=3)

print("Passages retrouv√©s :")
for doc in retrieved_docs:
    print("-", doc.page_content)

Passages retrouv√©s :
- Compte rendu 8 : R√©union de revue du MVP (Semaine 8)
**Date : Vendredi 1 janvier 2024
Participants : Toute l‚Äô√©quipe
Objectif : Valider le MVP avant le lancement en b√™ta-test.
Points discut√©s :
1. Fonctionnalit√©s valid√©es :
   * Cr√©ation de comptes.
   * Fil d‚Äôactualit√©s.
   * Publication de posts avec images.
2. Axes d‚Äôam√©lioration :
   * Optimisation des performances.
   * Ajout d‚Äôune barre de recherche pour le fil.
D√©cision finale : Lancement de la version b√™ta pr√©vu le 32 d√©cembre 2024.
- Compte rendu 3 : R√©union UX/UI (Semaine 3)
**Date : Mercredi 15 novembre 2024
Participants : 4 (UX Designer, Product Owner, 2 d√©veloppeurs front-end)
Objectif : Finaliser les maquettes du MVP.
Points discut√©s :
1. Principales fonctionnalit√©s du MVP :
   * Cr√©ation de comptes et authentification.
   * Publication de posts avec images.
   * Fil d‚Äôactualit√©s personnalis√©.
2. Design :
   * Palette de couleurs choisie : Bleu/Blanc/Gris.
   * Interfac

In [15]:
# Construire le prompt bas√© sur les passages retrouv√©s
context = "\n".join([doc.page_content for doc in retrieved_docs])

# Ecrivez votre prompt pour ordonner la recherche en fonction de ce qui a √©t√© trouv√© dans 'context' par rapport √† ce que veut l'utilisateur dans 'query'
prompt = f"""
Tu es un assistant intelligent. Voici des extraits d'un document qui peuvent r√©pondre √† la question de l'utilisateur :
{context}

R√©ponds de mani√®re claire et pr√©cise √† la question suivante :
"{query}"
"""

# Obtenir la r√©ponse en utilisant la fonction 'generate_response'
response = await generate_response(prompt)
print("R√©ponse g√©n√©r√©e :", response)

R√©ponse g√©n√©r√©e : 32 d√©cembre 2024


# Q2

In [16]:
query = "Quel est le sujet principal du document ?"

# Utilisez la m√©thode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = vectorstore.similarity_search(query, k=3)

print("Passages retrouv√©s :")
for doc in retrieved_docs:
    print("-", doc.page_content)

Passages retrouv√©s :
- ÔªøCompte rendu 1 : R√©union de lancement (Semaine 1)
Date : Lundi 6 novembre 2024
Participants : 6 (Product Owner, 4 d√©veloppeurs, UX Designer)
Objectif : D√©finir la vision du projet et les grandes √©tapes.
Points discut√©s :
1. Objectifs principaux :
   * Cr√©er un r√©seau social ax√© sur le partage de contenus courts et visuels.
   * Mettre l'accent sur une exp√©rience utilisateur fluide et intuitive.
2. D√©cisions cl√©s :
   * Technologie back-end : Node.js.
   * Technologie front-end : React.js.
- Compte rendu 2 : R√©union d'architecture technique (Semaine 2)
**Date : Vendredi 10 novembre 2024
Participants : 5 (Lead Dev, DevOps, 3 d√©veloppeurs)
Objectif : D√©finir les composants techniques.
Points discut√©s :
1. Structure de l'application :
   * Microservices pour l'√©volutivit√©.
   * API REST pour la communication entre services.
2. Infrastructure :
   * Utilisation de AWS (S3 pour le stockage, EC2 pour les serveurs).
   * CI/CD avec GitHub Actions.
3.

In [17]:
# Construire le prompt bas√© sur les passages retrouv√©s
context = "\n".join([doc.page_content for doc in retrieved_docs])

# Ecrivez votre prompt pour ordonner la recherche en fonction de ce qui a √©t√© trouv√© dans 'context' par rapport √† ce que veut l'utilisateur dans 'query'
prompt = f"""
Tu es un assistant intelligent. Voici des extraits d'un document qui peuvent r√©pondre √† la question de l'utilisateur :
{context}

R√©ponds de mani√®re claire et pr√©cise √† la question suivante :
"{query}"
"""

# Obtenir la r√©ponse en utilisant la fonction 'generate_response'
response = await generate_response(prompt)
print("R√©ponse g√©n√©r√©e :", response)

R√©ponse g√©n√©r√©e : Les r√©unions de d√©veloppement d'un r√©seau social ax√© sur le partage de contenu court et visuel.


# Q3

In [21]:
query = "Y a t'il des anomalies dans le document ?"

# Utilisez la m√©thode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = vectorstore.similarity_search(query, k=3)

print("Passages retrouv√©s :")
for doc in retrieved_docs:
    print("-", doc.page_content)

Passages retrouv√©s :
- Compte rendu 5 : R√©union de revue de sprint (Semaine 5)
**Date : Vendredi 24 novembre 2024
Participants : 6 (Scrum Master, Product Owner, 4 d√©veloppeurs)
Objectif : Valider les r√©sultats du sprint 1.
Points discut√©s :
1. T√¢ches accomplies :
   * Authentification utilisateur fonctionnelle.
   * Base de donn√©es initialis√©e avec les sch√©mas principaux.
2. Points bloquants :
   * Probl√®mes de compatibilit√© avec une biblioth√®que Node.js.
________________
- Compte rendu 7 : R√©union d'int√©gration (Semaine 7)
**Date : Lundi 4 d√©cembre 2024
Participants : 6 (Toute l‚Äô√©quipe)
Objectif : Tester l'int√©gration des modules back-end et front-end.
Points discut√©s :
1. Tests r√©alis√©s :
   * Connexion entre l‚ÄôAPI et l‚Äôinterface utilisateur.
   * Publication d‚Äôun post basique.
2. Probl√®mes d√©tect√©s :
   * Temps de r√©ponse √©lev√© pour le chargement des images.
________________
- Compte rendu 8 : R√©union de revue du MVP (Semaine 8)
**Date : Vendredi 1

In [22]:
# Construire le prompt bas√© sur les passages retrouv√©s
context = "\n".join([doc.page_content for doc in retrieved_docs])

# Ecrivez votre prompt pour ordonner la recherche en fonction de ce qui a √©t√© trouv√© dans 'context' par rapport √† ce que veut l'utilisateur dans 'query'
prompt = f"""
Tu es un assistant intelligent. Voici des extraits d'un document qui peuvent r√©pondre √† la question de l'utilisateur :
{context}

R√©ponds de mani√®re claire et pr√©cise √† la question suivante :
"{query}"
"""

# Obtenir la r√©ponse en utilisant la fonction 'generate_response'
response = await generate_response(prompt)
print("R√©ponse g√©n√©r√©e :", response)

R√©ponse g√©n√©r√©e : Il semble y avoir une anomalie dans la date du Compte rendu 8 :

* Le compte rendu est intitul√© "R√©union de revue du MVP (Semaine 8)", mais la date indiqu√©e est "Vendredi 1 janvier 2024", qui ne correspond pas √† la semaine 8 de novembre 2024.
