# Travaux Pratiques : Construire un RAG sur un seul document avec Google Colab

## Objectif

L'objectif de ce TP est d'apprendre à mettre en place un système de RAG (Retrieval-Augmented Generation) à partir d'un seul document en utilisant Google Colab. Nous allons :

1. Charger un document texte.

2. Extraire et indexer son contenu.

3. Implémenter une recherche de passage pertinente.

4. Utiliser un modèle de génération pour répondre à des questions sur le document.

## 1. Installer les packages

In [None]:
!pip install chromadb langchain-community langchain-google-genai

## 2. Configurer l'API de Google AI Studio

Nous allons configurer l'API Gemini de Google AI Studio pour intéragir avec un modèle de génération.

In [None]:
import os

os.environ["GOOGLE_API_KEY"] = "VOTRE_CLEF"

## 3. Charger un document texte

Nous allons utiliser un fichier texte comme source d'information. Vous pouvez soit en uploader un, soit utiliser un texte d'exemple.

In [None]:
from google.colab import files

uploaded = files.upload()  # Permet d'uploader un fichier texte

# Lire le contenu du fichier
file_name = list(uploaded.keys())[0]
with open(file_name, 'r', encoding='utf-8') as file:
    document_text = file.read()

print("Aperçu du document:", document_text[:500])  # Affiche un extrait du document

## 4. Segmenter et indexer le document

Nous allons découper le document en morceaux pour faciliter la recherche.

Utilisez la fonction "RecursiveCharacterTextSplitter" de lanchain pour découper le document avec une taille de chunk de 500 et un overlap de 50.

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Découpage du document en morceaux de 500 caractères avec un chevauchement
text_splitter = None

# Appliquez text_splitter sur notre document
documents = None
print(f"Nombre de segments créés : {len(documents)}")

## 5. Créer une base de données vectorielle

Nous allons utiliser ChromaDB pour stocker et interroger notre document.

In [None]:
import chromadb
from langchain.vectorstores import Chroma
from langchain_google_genai import GoogleGenerativeAIEmbeddings

# Initialiser l'index vectoriel avec Chroma
vectorstore = None

# Ajouter les documents indexés ne utilisant la méthode 'add_texts' de vectorstore
None

print("Indexation terminée !")

## 6. Rechercher des passages pertinents

Nous allons interroger notre base pour retrouver les passages les plus pertinents.

In [None]:
query = "Quel est le sujet principal du document ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = None

print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)

In [None]:
query = "Pour quand est prévu la sortie de la beta ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = None

print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)

## 7. Générer une réponse avec un LLM

Nous utilisons l'API Gemini de Google AI Studio pour génrer une réponse basée sur les passages récupéres.

In [None]:
import google.generativeai as genai

async def generate_response(prompt):

    # Initialisez le modèle "gemini-pro" en utilisant la fonction GenerativeModel
    model = None

    # Utilisez la fonction 'generate_content' pour générer la réponse de 'prompt'
    response = None

    return response.text.strip()

# Q1

In [None]:
query = "Pour quand est prévu la sortie de la beta ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = None

print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)

In [None]:
# Construire le prompt basé sur les passages retrouvés
context = "\n".join([doc.page_content for doc in retrieved_docs])

# Ecrivez votre prompt pour ordonner la recherche en fonction de ce qui a été trouvé dans 'context' par rapport à ce que veut l'utilisateur dans 'query'
prompt = None

# Obtenir la réponse en utilisant la fonction 'generate_response'
response = None
print("Réponse générée :", response)

# Q2

In [None]:
query = "Quel est le sujet principal du document ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = None

print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)

In [None]:
# Construire le prompt basé sur les passages retrouvés
context = "\n".join([doc.page_content for doc in retrieved_docs])

# Ecrivez votre prompt pour ordonner la recherche en fonction de ce qui a été trouvé dans 'context' par rapport à ce que veut l'utilisateur dans 'query'
prompt = None

# Obtenir la réponse en utilisant la fonction 'generate_response'
response = None
print("Réponse générée :", response)

# Q3

In [None]:
query = "Y a t'il des anomalies dans le document ?"

# Utilisez la méthode 'similarity_search' de vectorstore pour trouver les 3 chunks les plus proche de la question
retrieved_docs = None

print("Passages retrouvés :")
for doc in retrieved_docs:
    print("-", doc.page_content)

In [None]:
# Construire le prompt basé sur les passages retrouvés
context = "\n".join([doc.page_content for doc in retrieved_docs])

# Ecrivez votre prompt pour ordonner la recherche en fonction de ce qui a été trouvé dans 'context' par rapport à ce que veut l'utilisateur dans 'query'
prompt = None

# Obtenir la réponse en utilisant la fonction 'generate_response'
response = None
print("Réponse générée :", response)