# Travaux Pratiques : Construire un RAG sur un seul document avec Google Colab

## Objectif

L'objectif de ce TP est d'apprendre à mettre en place un système de RAG (Retrieval-Augmented Generation) à partir d'un seul document en utilisant Google Colab. Nous allons :

1. Charger un document texte.

2. Extraire et indexer son contenu.

3. Implémenter une recherche de passage pertinente.

4. Utiliser un modèle de génération pour répondre à des questions sur le document.

## 1. Installer les packages

In [1]:
!pip install chromadb langchain-community langchain-google-genai

Collecting chromadb
  Downloading chromadb-0.6.3-py3-none-any.whl.metadata (6.8 kB)
Collecting langchain-community
  Downloading langchain_community-0.3.17-py3-none-any.whl.metadata (2.4 kB)
Collecting langchain-google-genai
  Downloading langchain_google_genai-2.0.9-py3-none-any.whl.metadata (3.6 kB)
Collecting build>=1.0.3 (from chromadb)
  Downloading build-1.2.2.post1-py3-none-any.whl.metadata (6.5 kB)
Collecting chroma-hnswlib==0.7.6 (from chromadb)
  Downloading chroma_hnswlib-0.7.6-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (252 bytes)
Collecting fastapi>=0.95.2 (from chromadb)
  Downloading fastapi-0.115.8-py3-none-any.whl.metadata (27 kB)
Collecting uvicorn>=0.18.3 (from uvicorn[standard]>=0.18.3->chromadb)
  Downloading uvicorn-0.34.0-py3-none-any.whl.metadata (6.5 kB)
Collecting posthog>=2.4.0 (from chromadb)
  Downloading posthog-3.11.0-py2.py3-none-any.whl.metadata (2.9 kB)
Collecting onnxruntime>=1.14.1 (from chromadb)
  Downloading onnxruntime-1.

## 2. Configurer l'API de Google AI Studio

Nous allons configurer l'API Gemini de Google AI Studio pour intéragir avec un modèle de génération.

In [1]:
import os

os.environ["GOOGLE_API_KEY"] = "AIzaSyCIUCL_nYFZOhxkuFyNu05ZTm6pPyeIZ1c"

## 3. Charger un document texte

Nous allons utiliser un fichier texte comme source d'information. Vous pouvez soit en uploader un, soit utiliser un texte d'exemple.

In [2]:
from google.colab import files

uploaded = files.upload()  # Permet d'uploader un fichier texte

# Lire le contenu du fichier
file_name = list(uploaded.keys())[0]
with open(file_name, 'r', encoding='utf-8') as file:
    document_text = file.read()

print("Aperçu du document:", document_text[:500])  # Affiche un extrait du document

Saving 4 - Compte rendu exercice recherche d'information.txt to 4 - Compte rendu exercice recherche d'information.txt
Aperçu du document: ﻿Compte rendu 1 : Réunion de lancement (Semaine 1)
Date : Lundi 6 novembre 2024
Participants : 6 (Product Owner, 4 développeurs, UX Designer)
Objectif : Définir la vision du projet et les grandes étapes.
Points discutés :
1. Objectifs principaux :
   * Créer un réseau social axé sur le partage de contenus courts et visuels.
   * Mettre l'accent sur une expérience utilisateur fluide et intuitive.
2. Décisions clés :
   * Technologie back-end : Node.js.
   * Technologie front-end : React.js.
   * 


## 4. Segmenter et indexer le document

Nous allons découper le document en morceaux pour faciliter la recherche.

Utilisez la fonction "RecursiveCharacterTextSplitter" de lanchain pour découper le document avec une taille de chunk de 500 et un overlap de 50.

In [3]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500, chunk_overlap=50
)

documents = text_splitter.split_text(document_text)
print(f"Nombre de segments créés : {len(documents)}")

Nombre de segments créés : 10


In [8]:
%pip install langchain-chroma

Collecting langchain-chroma
  Downloading langchain_chroma-0.2.1-py3-none-any.whl.metadata (1.7 kB)
Downloading langchain_chroma-0.2.1-py3-none-any.whl (11 kB)
Installing collected packages: langchain-chroma
Successfully installed langchain-chroma-0.2.1


## 5. Créer une base de données vectorielle

Nous allons utiliser ChromaDB pour stocker et interroger notre document.

In [9]:
import chromadb
from langchain.vectorstores import Chroma
from langchain_google_genai import GoogleGenerativeAIEmbeddings

# Initialiser l'index vectoriel avec Chroma
vectorstore = None

# Ajouter les documents indexés ne utilisant la méthode 'add_texts' de vectorstore
None

print("Indexation terminée !")

Indexation terminée !


## 6. Rechercher des passages pertinents

Nous allons interroger notre base pour retrouver les passages les plus pertinents.

In [11]:
# 6. Rechercher des passages pertinents
query = "Quel est le sujet principal du document ?"
retrieved_docs = vectorstore.similarity_search(query, k=3)
print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)

query = "Pour quand est prévu la sortie de la beta ?"
retrieved_docs = vectorstore.similarity_search(query, k=3)
print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)

AttributeError: 'NoneType' object has no attribute 'similarity_search'

In [None]:
query = "Pour quand est prévu la sortie de la beta ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = None

print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)

## 7. Générer une réponse avec un LLM

Nous utilisons l'API Gemini de Google AI Studio pour génrer une réponse basée sur les passages récupéres.

In [None]:
import google.generativeai as genai

async def generate_response(prompt):

    # Initialisez le modèle "gemini-pro" en utilisant la fonction GenerativeModel
    model = None

    # Utilisez la fonction 'generate_content' pour générer la réponse de 'prompt'
    response = None

    return response.text.strip()

# Q1

In [None]:
query = "Pour quand est prévu la sortie de la beta ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = None

print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)

In [None]:
# Construire le prompt basé sur les passages retrouvés
context = "\n".join([doc.page_content for doc in retrieved_docs])

# Ecrivez votre prompt pour ordonner la recherche en fonction de ce qui a été trouvé dans 'context' par rapport à ce que veut l'utilisateur dans 'query'
prompt = None

# Obtenir la réponse en utilisant la fonction 'generate_response'
response = None
print("Réponse générée :", response)

# Q2

In [None]:
query = "Quel est le sujet principal du document ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = None

print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)

In [None]:
# Construire le prompt basé sur les passages retrouvés
context = "\n".join([doc.page_content for doc in retrieved_docs])

# Ecrivez votre prompt pour ordonner la recherche en fonction de ce qui a été trouvé dans 'context' par rapport à ce que veut l'utilisateur dans 'query'
prompt = None

# Obtenir la réponse en utilisant la fonction 'generate_response'
response = None
print("Réponse générée :", response)

# Q3

In [None]:
query = "Y a t'il des anomalies dans le document ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = None

print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)

In [None]:
# Construire le prompt basé sur les passages retrouvés
context = "\n".join([doc.page_content for doc in retrieved_docs])

# Ecrivez votre prompt pour ordonner la recherche en fonction de ce qui a été trouvé dans 'context' par rapport à ce que veut l'utilisateur dans 'query'
prompt = None

# Obtenir la réponse en utilisant la fonction 'generate_response'
response = None
print("Réponse générée :", response)