# Travaux Pratiques : Construire un RAG sur un seul document avec Google Colab

## Objectif

L'objectif de ce TP est d'apprendre à mettre en place un système de RAG (Retrieval-Augmented Generation) à partir d'un seul document en utilisant Google Colab. Nous allons :

1. Charger un document texte.

2. Extraire et indexer son contenu.

3. Implémenter une recherche de passage pertinente.

4. Utiliser un modèle de génération pour répondre à des questions sur le document.

## 1. Installer les packages

In [1]:
!pip install chromadb langchain-community langchain-google-genai

Collecting chromadb
  Downloading chromadb-0.6.3-py3-none-any.whl.metadata (6.8 kB)
Collecting langchain-community
  Downloading langchain_community-0.3.17-py3-none-any.whl.metadata (2.4 kB)
Collecting langchain-google-genai
  Downloading langchain_google_genai-2.0.9-py3-none-any.whl.metadata (3.6 kB)
Collecting build>=1.0.3 (from chromadb)
  Downloading build-1.2.2.post1-py3-none-any.whl.metadata (6.5 kB)
Collecting chroma-hnswlib==0.7.6 (from chromadb)
  Downloading chroma_hnswlib-0.7.6-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (252 bytes)
Collecting fastapi>=0.95.2 (from chromadb)
  Downloading fastapi-0.115.8-py3-none-any.whl.metadata (27 kB)
Collecting uvicorn>=0.18.3 (from uvicorn[standard]>=0.18.3->chromadb)
  Downloading uvicorn-0.34.0-py3-none-any.whl.metadata (6.5 kB)
Collecting posthog>=2.4.0 (from chromadb)
  Downloading posthog-3.11.0-py2.py3-none-any.whl.metadata (2.9 kB)
Collecting onnxruntime>=1.14.1 (from chromadb)
  Downloading onnxruntime-1.

## 2. Configurer l'API de Google AI Studio

Nous allons configurer l'API Gemini de Google AI Studio pour intéragir avec un modèle de génération.

In [1]:
import os

os.environ["GOOGLE_API_KEY"] = "AIzaSyCIUCL_nYFZOhxkuFyNu05ZTm6pPyeIZ1c"

## 3. Charger un document texte

Nous allons utiliser un fichier texte comme source d'information. Vous pouvez soit en uploader un, soit utiliser un texte d'exemple.

In [2]:
from google.colab import files

uploaded = files.upload()  # Permet d'uploader un fichier texte

# Lire le contenu du fichier
file_name = list(uploaded.keys())[0]
with open(file_name, 'r', encoding='utf-8') as file:
    document_text = file.read()

print("Aperçu du document:", document_text[:500])  # Affiche un extrait du document

Saving 4 - Compte rendu exercice recherche d'information.txt to 4 - Compte rendu exercice recherche d'information.txt
Aperçu du document: ﻿Compte rendu 1 : Réunion de lancement (Semaine 1)
Date : Lundi 6 novembre 2024
Participants : 6 (Product Owner, 4 développeurs, UX Designer)
Objectif : Définir la vision du projet et les grandes étapes.
Points discutés :
1. Objectifs principaux :
   * Créer un réseau social axé sur le partage de contenus courts et visuels.
   * Mettre l'accent sur une expérience utilisateur fluide et intuitive.
2. Décisions clés :
   * Technologie back-end : Node.js.
   * Technologie front-end : React.js.
   * 


## 4. Segmenter et indexer le document

Nous allons découper le document en morceaux pour faciliter la recherche.

Utilisez la fonction "RecursiveCharacterTextSplitter" de lanchain pour découper le document avec une taille de chunk de 500 et un overlap de 50.

In [3]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500, chunk_overlap=50
)

documents = text_splitter.split_text(document_text)
print(f"Nombre de segments créés : {len(documents)}")

Nombre de segments créés : 10


In [8]:
%pip install langchain-chroma

Collecting langchain-chroma
  Downloading langchain_chroma-0.2.1-py3-none-any.whl.metadata (1.7 kB)
Downloading langchain_chroma-0.2.1-py3-none-any.whl (11 kB)
Installing collected packages: langchain-chroma
Successfully installed langchain-chroma-0.2.1


## 5. Créer une base de données vectorielle

Nous allons utiliser ChromaDB pour stocker et interroger notre document.

In [20]:
!pip install sentence_transformers

from langchain.embeddings import SentenceTransformerEmbeddings
from langchain_community.vectorstores import Chroma

# Define the embedding function using SentenceTransformerEmbeddings
embeddings = SentenceTransformerEmbeddings(model_name="all-mpnet-base-v2")

# Create the Chroma vectorstore with the embedding function
vectorstore = Chroma(embedding_function=embeddings)

# Add the document text
vectorstore.add_texts([document_text])
print("Indexation terminée !")

Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=1.11.0->sentence_transformers)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=1.11.0->sentence_transformers)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch>=1.11.0->sentence_transformers)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch>=1.11.0->sentence_transformers)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch>=1.11.0->sentence_transformers)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12==11.2.1.3 (from torch>=1.11.0->sentence_transformers)
 

  embeddings = SentenceTransformerEmbeddings(model_name="all-mpnet-base-v2")
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.6k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/438M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Indexation terminée !


In [None]:
# 5. Créer une base de données vectorielle
vectorstore = Chroma()
vectorstore.add_texts([document_text])
print("Indexation terminée !")

## 6. Rechercher des passages pertinents

Nous allons interroger notre base pour retrouver les passages les plus pertinents.

In [21]:
query = "Quel est le sujet principal du document ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = vectorstore.similarity_search(query, k=3)

print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)



Passages retrouvés :
- ﻿Compte rendu 1 : Réunion de lancement (Semaine 1)
Date : Lundi 6 novembre 2024
Participants : 6 (Product Owner, 4 développeurs, UX Designer)
Objectif : Définir la vision du projet et les grandes étapes.
Points discutés :
1. Objectifs principaux :
   * Créer un réseau social axé sur le partage de contenus courts et visuels.
   * Mettre l'accent sur une expérience utilisateur fluide et intuitive.
2. Décisions clés :
   * Technologie back-end : Node.js.
   * Technologie front-end : React.js.
   * Base de données : MongoDB.
3. Prochaines étapes :
   * Finaliser le cahier des charges.
   * Débuter la conception de l’architecture technique.
________________


Compte rendu 2 : Réunion d'architecture technique (Semaine 2)
**Date : Vendredi 10 novembre 2024
Participants : 5 (Lead Dev, DevOps, 3 développeurs)
Objectif : Définir les composants techniques.
Points discutés :
1. Structure de l'application :
   * Microservices pour l'évolutivité.
   * API REST pour la communic

In [23]:
query = "Pour quand est prévu la sortie de la beta ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = vectorstore.similarity_search(query, k=3)
print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)



Passages retrouvés :
- ﻿Compte rendu 1 : Réunion de lancement (Semaine 1)
Date : Lundi 6 novembre 2024
Participants : 6 (Product Owner, 4 développeurs, UX Designer)
Objectif : Définir la vision du projet et les grandes étapes.
Points discutés :
1. Objectifs principaux :
   * Créer un réseau social axé sur le partage de contenus courts et visuels.
   * Mettre l'accent sur une expérience utilisateur fluide et intuitive.
2. Décisions clés :
   * Technologie back-end : Node.js.
   * Technologie front-end : React.js.
   * Base de données : MongoDB.
3. Prochaines étapes :
   * Finaliser le cahier des charges.
   * Débuter la conception de l’architecture technique.
________________


Compte rendu 2 : Réunion d'architecture technique (Semaine 2)
**Date : Vendredi 10 novembre 2024
Participants : 5 (Lead Dev, DevOps, 3 développeurs)
Objectif : Définir les composants techniques.
Points discutés :
1. Structure de l'application :
   * Microservices pour l'évolutivité.
   * API REST pour la communic

## 7. Générer une réponse avec un LLM

Nous utilisons l'API Gemini de Google AI Studio pour génrer une réponse basée sur les passages récupéres.

In [32]:
import google.generativeai as genai
import os

# Set your Google API key here
os.environ["GOOGLE_API_KEY"] = "AIzaSyCIUCL_nYFZOhxkuFyNu05ZTm6pPyeIZ1c"  # Replace YOUR_API_KEY with your actual key
genai.configure(api_key="AIzaSyCIUCL_nYFZOhxkuFyNu05ZTm6pPyeIZ1c") # This is critical

async def generate_response(prompt):
    model = genai.GenerativeModel("gemini-pro")
    response = model.generate_content(prompt)
    return response.text.strip()

query = "Pour quand est prévu la sortie de la beta ?"
retrieved_docs = vectorstore.similarity_search(query, k=3)
print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)

context = "\n".join([doc.page_content for doc in retrieved_docs])
prompt = f"Basé sur ces informations :\n{context}\nRépondez à la question : {query}"
response = await generate_response(prompt)
print("Réponse générée :", response)



Passages retrouvés :
- ﻿Compte rendu 1 : Réunion de lancement (Semaine 1)
Date : Lundi 6 novembre 2024
Participants : 6 (Product Owner, 4 développeurs, UX Designer)
Objectif : Définir la vision du projet et les grandes étapes.
Points discutés :
1. Objectifs principaux :
   * Créer un réseau social axé sur le partage de contenus courts et visuels.
   * Mettre l'accent sur une expérience utilisateur fluide et intuitive.
2. Décisions clés :
   * Technologie back-end : Node.js.
   * Technologie front-end : React.js.
   * Base de données : MongoDB.
3. Prochaines étapes :
   * Finaliser le cahier des charges.
   * Débuter la conception de l’architecture technique.
________________


Compte rendu 2 : Réunion d'architecture technique (Semaine 2)
**Date : Vendredi 10 novembre 2024
Participants : 5 (Lead Dev, DevOps, 3 développeurs)
Objectif : Définir les composants techniques.
Points discutés :
1. Structure de l'application :
   * Microservices pour l'évolutivité.
   * API REST pour la communic

# Q1

In [33]:
query = "Pour quand est prévu la sortie de la beta ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = vectorstore.similarity_search(query, k=3)

print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)



Passages retrouvés :
- ﻿Compte rendu 1 : Réunion de lancement (Semaine 1)
Date : Lundi 6 novembre 2024
Participants : 6 (Product Owner, 4 développeurs, UX Designer)
Objectif : Définir la vision du projet et les grandes étapes.
Points discutés :
1. Objectifs principaux :
   * Créer un réseau social axé sur le partage de contenus courts et visuels.
   * Mettre l'accent sur une expérience utilisateur fluide et intuitive.
2. Décisions clés :
   * Technologie back-end : Node.js.
   * Technologie front-end : React.js.
   * Base de données : MongoDB.
3. Prochaines étapes :
   * Finaliser le cahier des charges.
   * Débuter la conception de l’architecture technique.
________________


Compte rendu 2 : Réunion d'architecture technique (Semaine 2)
**Date : Vendredi 10 novembre 2024
Participants : 5 (Lead Dev, DevOps, 3 développeurs)
Objectif : Définir les composants techniques.
Points discutés :
1. Structure de l'application :
   * Microservices pour l'évolutivité.
   * API REST pour la communic

In [34]:
# Construire le prompt basé sur les passages retrouvés
context = "\n".join([doc.page_content for doc in retrieved_docs])

prompt = f"Basé sur ces informations :\n{context}\nRépondez à la question : {query}"
response = await generate_response(prompt)

print("Réponse générée :", response)

Réponse générée : 32 décembre 2024


# Q2

In [35]:
query = "Quel est le sujet principal du document ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = vectorstore.similarity_search(query, k=3)

print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)



Passages retrouvés :
- ﻿Compte rendu 1 : Réunion de lancement (Semaine 1)
Date : Lundi 6 novembre 2024
Participants : 6 (Product Owner, 4 développeurs, UX Designer)
Objectif : Définir la vision du projet et les grandes étapes.
Points discutés :
1. Objectifs principaux :
   * Créer un réseau social axé sur le partage de contenus courts et visuels.
   * Mettre l'accent sur une expérience utilisateur fluide et intuitive.
2. Décisions clés :
   * Technologie back-end : Node.js.
   * Technologie front-end : React.js.
   * Base de données : MongoDB.
3. Prochaines étapes :
   * Finaliser le cahier des charges.
   * Débuter la conception de l’architecture technique.
________________


Compte rendu 2 : Réunion d'architecture technique (Semaine 2)
**Date : Vendredi 10 novembre 2024
Participants : 5 (Lead Dev, DevOps, 3 développeurs)
Objectif : Définir les composants techniques.
Points discutés :
1. Structure de l'application :
   * Microservices pour l'évolutivité.
   * API REST pour la communic

In [36]:
# Construire le prompt basé sur les passages retrouvés
context = "\n".join([doc.page_content for doc in retrieved_docs])

prompt = f"Basé sur ces informations :\n{context}\nRépondez à la question : {query}"
response = await generate_response(prompt)
print("Réponse générée :", response)

Réponse générée : Compte rendus de réunions de développement d'un réseau social axé sur le partage de contenus visuels


# Q3

In [37]:
query = "Y a t'il des anomalies dans le document ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = vectorstore.similarity_search(query, k=3)

print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)



Passages retrouvés :
- ﻿Compte rendu 1 : Réunion de lancement (Semaine 1)
Date : Lundi 6 novembre 2024
Participants : 6 (Product Owner, 4 développeurs, UX Designer)
Objectif : Définir la vision du projet et les grandes étapes.
Points discutés :
1. Objectifs principaux :
   * Créer un réseau social axé sur le partage de contenus courts et visuels.
   * Mettre l'accent sur une expérience utilisateur fluide et intuitive.
2. Décisions clés :
   * Technologie back-end : Node.js.
   * Technologie front-end : React.js.
   * Base de données : MongoDB.
3. Prochaines étapes :
   * Finaliser le cahier des charges.
   * Débuter la conception de l’architecture technique.
________________


Compte rendu 2 : Réunion d'architecture technique (Semaine 2)
**Date : Vendredi 10 novembre 2024
Participants : 5 (Lead Dev, DevOps, 3 développeurs)
Objectif : Définir les composants techniques.
Points discutés :
1. Structure de l'application :
   * Microservices pour l'évolutivité.
   * API REST pour la communic

In [38]:
# Construire le prompt basé sur les passages retrouvés
context = "\n".join([doc.page_content for doc in retrieved_docs])

prompt = f"Basé sur ces informations :\n{context}\nRépondez à la question : {query}"
response = await generate_response(prompt)
print("Réponse générée :", response)

Réponse générée : Oui, il y a une anomalie dans le document :

Le Compte rendu 8 est daté du "Vendredi 1 janvier 2024", ce qui est impossible car la réunion de lancement (Compte rendu 1) a eu lieu le "Lundi 6 novembre 2024".
