# Projet RAG (Retrieval Augmented Generation) avec LangChain et Google Gemini

Ce notebook implémente un système de Retrieval Augmented Generation (RAG) pour interagir avec des documents PDF en utilisant les capacités des modèles de langage de Google Gemini via le framework LangChain.
L'objectif principal de ce projet est de construire une application qui peut :
Extraire du texte à partir d'un document PDF, dans ce cas le document choisi c'est le "AI ACT" de la UE.
Diviser ce texte en petits morceaux (chunks).
Vectoriser ces chunks pour les rendre interrogeables sémantiquement.
Récupérer dynamiquement les informations les plus pertinentes du PDF en réponse à une question posée par l'utilisateur.
Utiliser un modèle de langage (LLM) pour générer une réponse concise et précise basée uniquement sur les informations récupérées, évitant ainsi les "hallucinations" et assurant la pertinence contextuelle.
Le notebook est divisé en plusieurs blocs de code, chacun ayant un rôle spécifique dans la chaîne de traitement RAG. Des messages d'avancement sont inclus pour suivre la progression étape par étape.

In [None]:
# Installation des bibliothèques nécessaires
!pip install PyMuPDF langchain langchain-community langchain-google-genai google-generativeai chromadb

### Bloc 1 : Initialisation (Imports, API, Modèles)
Objectif : Préparer l'environnement en important toutes les bibliothèques Python nécessaires et en initialisant les composants clés de notre système d'IA. Cela inclut la configuration de votre clé API Google Gemini et l'instanciation du modèle de langage (LLM) pour la génération de texte (gemini-2.0-flash) et du modèle d'embeddings pour la vectorisation du texte (models/embedding-001).

In [11]:
# Imports nécessaires
import fitz  # PyMuPDF
from langchain.text_splitter import RecursiveCharacterTextSplitter
import google.generativeai as genai
from langchain.prompts import PromptTemplate

# Nouveaux imports pour RAG avec LangChain
from langchain_google_genai import GoogleGenerativeAIEmbeddings, ChatGoogleGenerativeAI
from langchain_community.vectorstores import Chroma
from langchain_core.documents import Document
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder

print("--- Bloc 1 : Initialisation ---")

# Initialiser le client Gemini et la clé API
api_key = "AIzaSyCEmBeUR9t06kZcwYogQZc_NRrUH6fH67c" # Remplacez par votre vraie clé API si ce n'est pas un exemple
genai.configure(api_key=api_key) # Configurer le client genai globalement

# Utiliser le wrapper LangChain pour Gemini LLM (modèle de chat)
llm = ChatGoogleGenerativeAI(model="gemini-2.0-flash", google_api_key=api_key)

# Initialiser le modèle d'embeddings pour la recherche vectorielle
embeddings_model = GoogleGenerativeAIEmbeddings(model="models/embedding-001", google_api_key=api_key)

print("Modules importés et modèles LLM/Embeddings initialisés avec succès.")

--- Bloc 1 : Initialisation ---
Modules importés et modèles LLM/Embeddings initialisés avec succès.


### Bloc 2 : Chargement du PDF et Extraction du Texte
Objectif : Lire le document PDF spécifié et en extraire tout le contenu textuel brut. Cette étape est cruciale car elle transforme le document structuré en une chaîne de caractères utilisable par les étapes suivantes du pipeline RAG.

In [16]:
print("--- Bloc 2 : Chargement du PDF et Extraction du Texte ---")

# Chemin vers le PDF
pdf_document = "C:/Users/Mike0/Downloads/aiact_final_draft.pdf/aiact_final_draft.pdf"

try:
    doc = fitz.open(pdf_document)
    text = ""
    for page_num in range(len(doc)):
        page = doc.load_page(page_num)
        text += page.get_text()
    doc.close() # Fermer le document après extraction

    print(f"Texte extrait avec succès du PDF '{pdf_document}'.")
    print(f"Longueur totale du texte : {len(text)} caractères.")
    print(f"Début du texte extrait (premiers 5000 caractères) :\n---\n{text[:5000]}...\n---")

except Exception as e:
    print(f"Erreur lors de l'extraction du texte du PDF : {e}")
    text = "" # S'assurer que 'text' est défini même en cas d'erreur

--- Bloc 2 : Chargement du PDF et Extraction du Texte ---
Texte extrait avec succès du PDF 'C:/Users/Mike0/Downloads/aiact_final_draft.pdf/aiact_final_draft.pdf'.
Longueur totale du texte : 619242 caractères.
Début du texte extrait (premiers 5000 caractères) :
---
  
5662/24  
 
RB/ek 
1
TREE.2.B 
LIMITE 
EN
 
Council of the 
European Union 
Brussels, 26 January 2024 
(OR. en) 
5662/24 
LIMITE 
TELECOM 22 
JAI 98 
COPEN 18 
CYBER 14 
DATAPROTECT 32 
EJUSTICE 3 
COSI 6 
IXIM 15 
ENFOPOL 21 
RELEX 77 
MI 65 
COMPET 68 
CODEC 133 
Interinstitutional File: 
2021/0106(COD) 
 
 
NOTE 
From: 
Presidency 
To: 
Permanent Representatives Committee 
No. Cion doc.: 
8115/21 
Subject: 
Proposal for a Regulation of the European Parliament and of the Council 
laying down harmonised rules on artificial intelligence (Artificial Intelligence 
Act)  and amending certain Union legislative acts 
- Analysis of the final compromise text with a view to agreement 
 
 
I. 
INTRODUCTION 
1. 
The Commission adopt

### Bloc 3 : Division du Texte en Chunks
Objectif : Découper le long texte extrait du PDF en morceaux plus petits, appelés "chunks". Cette division est essentielle car les modèles d'embeddings et les LLM ont des limites de taille de contexte. Un chevauchement est également défini pour s'assurer qu'aucun contexte important ne soit perdu aux frontières des chunks.

In [17]:
print("--- Bloc 3 : Division du Texte en Chunks ---")

# Diviser le texte en chunks
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,  # Nombre de caractères par chunk
    chunk_overlap=200  # Chevauchement entre les chunks
)
chunks = text_splitter.split_text(text)

print(f"Texte divisé en {len(chunks)} chunks.")
if chunks:
    print(f"Exemple du premier chunk (longueur {len(chunks[0])}) :\n---\n{chunks[0]}...\n---")
    if len(chunks) > 1:
        print(f"Exemple du deuxième chunk (longueur {len(chunks[1])}) :\n---\n{chunks[1]}...\n---")
else:
    print("Aucun chunk n'a été créé. Vérifiez si le texte du PDF n'était pas vide.")

--- Bloc 3 : Division du Texte en Chunks ---
Texte divisé en 784 chunks.
Exemple du premier chunk (longueur 984) :
---
5662/24  
 
RB/ek 
1
TREE.2.B 
LIMITE 
EN
 
Council of the 
European Union 
Brussels, 26 January 2024 
(OR. en) 
5662/24 
LIMITE 
TELECOM 22 
JAI 98 
COPEN 18 
CYBER 14 
DATAPROTECT 32 
EJUSTICE 3 
COSI 6 
IXIM 15 
ENFOPOL 21 
RELEX 77 
MI 65 
COMPET 68 
CODEC 133 
Interinstitutional File: 
2021/0106(COD) 
 
 
NOTE 
From: 
Presidency 
To: 
Permanent Representatives Committee 
No. Cion doc.: 
8115/21 
Subject: 
Proposal for a Regulation of the European Parliament and of the Council 
laying down harmonised rules on artificial intelligence (Artificial Intelligence 
Act)  and amending certain Union legislative acts 
- Analysis of the final compromise text with a view to agreement 
 
 
I. 
INTRODUCTION 
1. 
The Commission adopted the proposal for a Regulation laying down harmonised rules on 
artificial intelligence (Artificial Intelligence Act, hereinafter: the AI Act) on 2

### Bloc 4 : Vectorisation et Stockage Vectoriel
Objectif : Convertir chaque chunk de texte en une représentation numérique dense (un "embedding" ou "vecteur"). Ces vecteurs capturent le sens sémantique du texte. Ensuite, ces embeddings sont stockés dans une base de données vectorielle (ici, ChromaDB en mémoire). C'est cette base de données qui permettra une recherche rapide et sémantiquement pertinente des informations.

In [18]:
print("--- Bloc 4 : Vectorisation et Stockage Vectoriel ---")

# Convertir les chunks en objets Document de LangChain
documents = [Document(page_content=chunk) for chunk in chunks]

if documents:
    # Créer la base de données vectorielle à partir des documents et du modèle d'embeddings
    # C'est ici que les embeddings sont générés et stockés (en mémoire dans ce cas avec Chroma)
    vectorstore = Chroma.from_documents(documents, embeddings_model)
    print(f"Base de données vectorielle Chroma créée avec succès. {len(documents)} documents indexés.")
    print("Les données sont maintenant vectorisées et prêtes pour la recherche sémantique.")
else:
    print("Aucun document à vectoriser. La base de données vectorielle n'a pas été créée.")
    vectorstore = None # S'assurer que vectorstore est None si aucun document

--- Bloc 4 : Vectorisation et Stockage Vectoriel ---
Base de données vectorielle Chroma créée avec succès. 784 documents indexés.
Les données sont maintenant vectorisées et prêtes pour la recherche sémantique.


### Bloc 5 : Configuration de la Chaîne RAG
Objectif : Assembler les différents composants (le retriever, le modèle de langage et le prompt) pour créer la chaîne RAG complète. Le "retriever" est configuré pour rechercher les chunks les plus pertinents dans la base de données vectorielle. Le "prompt" est conçu pour guider le LLM à utiliser le contexte récupéré pour générer sa réponse.

In [19]:
print("--- Bloc 5 : Configuration de la Chaîne RAG ---")

if vectorstore:
    # Créer un retriever à partir de la base de données vectorielle
    # search_kwargs={"k": 3} signifie qu'il récupérera les 3 chunks les plus pertinents
    retriever = vectorstore.as_retriever(search_kwargs={"k": 3})

    # Définir le prompt pour la combinaison des documents
    prompt = ChatPromptTemplate.from_messages([
        ("system", "Répondez à la question de l'utilisateur en vous basant uniquement sur le contexte fourni ci-dessous:\n\n{context}"),
        MessagesPlaceholder("history"), # Pour l'historique de conversation si on en ajoute plus tard
        ("user", "{input}")
    ])

    # Créer la chaîne pour combiner les documents avec le LLM
    document_chain = create_stuff_documents_chain(llm, prompt)

    # Créer la chaîne de récupération complète (RAG)
    retrieval_chain = create_retrieval_chain(retriever, document_chain)
    print("Chaîne RAG configurée avec succès (Retriever et Generation).")
else:
    print("Impossible de configurer la chaîne RAG car la base de données vectorielle n'a pas été créée.")
    retrieval_chain = None

--- Bloc 5 : Configuration de la Chaîne RAG ---
Chaîne RAG configurée avec succès (Retriever et Generation).


### Bloc 6 : Pose de la Question et Obtention de la Réponse (avec Contexte)
Objectif : Exécuter le système RAG. Une question est soumise à la chaîne. La chaîne récupère automatiquement les chunks les plus pertinents du PDF, les passe au LLM comme contexte, et le LLM génère une réponse basée sur ces informations. Ce bloc affiche non seulement la réponse finale, mais aussi les chunks spécifiques qui ont été utilisés par le modèle pour formuler cette réponse, offrant ainsi une transparence sur le processus de "retrieval".

In [20]:
print("--- Bloc 6 : Pose de la Question et Obtention de la Réponse ---")

if retrieval_chain:
    # Exemple d'utilisation
    question = "what is the definition of an AI system ?"
    print(f"Question posée : '{question}'")

    # Appeler la chaîne de récupération avec la question
    # Le processus de recherche des chunks pertinents et d'envoi au LLM est géré automatiquement
    response = retrieval_chain.invoke({"input": question, "history": []})

    print("\n--- Réponse de l'agent RAG ---")
    print(response["answer"])

    print("\n--- Chunks de document utilisés pour cette réponse (les 3 plus pertinents) ---")
    for i, doc in enumerate(response["context"]):
        print(f"\nChunk {i+1} (longueur {len(doc.page_content)} caractères) :")
        print("------------------------------------------------------------------")
        print(doc.page_content)
        print("------------------------------------------------------------------")
else:
    print("La chaîne RAG n'est pas prête pour répondre aux questions.")

--- Bloc 6 : Pose de la Question et Obtention de la Réponse ---
Question posée : 'what is the definition of an AI system ?'

--- Réponse de l'agent RAG ---
AI systems are characterized by their capability to infer, which involves obtaining outputs like predictions, content, recommendations, or decisions that can influence physical and virtual environments. This capability includes deriving models and/or algorithms from inputs/data. The techniques that enable inference while building an AI system include machine learning approaches that learn from data how to achieve certain objectives; and logic- and knowledge-based approaches that infer from encoded knowledge or symbolic representation of the task to be solved. The capacity of an AI system to infer goes beyond basic data processing, enable learning, reasoning or modelling. The term “machine-based” refers to the fact that AI systems run on machines.

--- Chunks de document utilisés pour cette réponse (les 3 plus pertinents) ---

Chunk 