In [1]:
! pip install langchain_google_genai langchain_community pymupdf faiss_cpu
!pip install "unstructured[pdf]"

Collecting langchain_google_genai
  Downloading langchain_google_genai-2.0.11-py3-none-any.whl.metadata (3.6 kB)
Collecting langchain_community
  Downloading langchain_community-0.3.19-py3-none-any.whl.metadata (2.4 kB)
Collecting pymupdf
  Downloading pymupdf-1.25.3-cp39-abi3-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (3.4 kB)
Collecting faiss_cpu
  Downloading faiss_cpu-1.10.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (4.4 kB)
Collecting filetype<2.0.0,>=1.2.0 (from langchain_google_genai)
  Downloading filetype-1.2.0-py2.py3-none-any.whl.metadata (6.5 kB)
Collecting google-ai-generativelanguage<0.7.0,>=0.6.16 (from langchain_google_genai)
  Downloading google_ai_generativelanguage-0.6.16-py3-none-any.whl.metadata (5.7 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain_community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain_community)
  Downloading pydantic_settings-2.8.1-p

Collecting unstructured[pdf]
  Downloading unstructured-0.16.25-py3-none-any.whl.metadata (24 kB)
Collecting python-magic (from unstructured[pdf])
  Downloading python_magic-0.4.27-py2.py3-none-any.whl.metadata (5.8 kB)
Collecting emoji (from unstructured[pdf])
  Downloading emoji-2.14.1-py3-none-any.whl.metadata (5.7 kB)
Collecting python-iso639 (from unstructured[pdf])
  Downloading python_iso639-2025.2.18-py3-none-any.whl.metadata (14 kB)
Collecting langdetect (from unstructured[pdf])
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m981.5/981.5 kB[0m [31m16.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting rapidfuzz (from unstructured[pdf])
  Downloading rapidfuzz-3.12.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting backoff (from unstructured[pdf])
  Downloading backoff-2.2.1-py3-none-any.whl.metadata (14 kB)
Collecting unstruct

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## Introduction

Les modèles de langage de grande taille (LLM, pour Large Language Models) comme GPT-3, BERT, et T5 ont révolutionné le domaine du traitement du langage naturel (NLP). Ces modèles sont capables de générer du texte, de répondre à des questions, de traduire des langues, et bien plus encore. Cependant, ils ont des limites, notamment en ce qui concerne l'accès à des informations précises et à jour, ainsi que leur capacité à raisonner sur des connaissances externes.

C'est là que les modèles RAG (Retrieval-Augmented Generation) entrent en jeu. RAG combine la puissance des LLM avec un mécanisme de recherche (retrieval) pour accéder à des informations externes, ce qui permet d'améliorer la qualité et la précision des réponses générées.

## Architecture d'un RAG

L'architecture de RAG se compose de deux composants principaux :

- Le module de recherche (Retriever)
- Le module de génération (Generator)

Chacun de ces modules joue un rôle crucial dans le processus de génération de texte. Examinons-les en détail.

### Prétraitement des Données

Extraire le texte des documents (PDF, Word, txt, etc.) et le préparer.

Outils utilisés :
- PyMuPDF pour extraire le texte des PDFs.
- Text Splitters pour diviser le texte en chunks (blocs de texte) utilisables par le modèle.

In [None]:
# # Charger un PDF
# pdf_file_path = "/content/drive/MyDrive/MES COURS/L3/ChatBot/LLM/corpus/Copie de Rapport_groupe1_DEVOPS.pdf"
# loader = PyMuPDFLoader(pdf_file_path)
# documents = loader.load()

# Charger un directory

# =====================================================

# directory_path = "/content/drive/MyDrive/MES_COURS/L3/ChatBot/EXAM_RAG/corpus"
# # Pass 'glob' during initialization
# loader = DirectoryLoader(directory_path, exclude=["*.pdf"], show_progress=True)
# # Call load without arguments
# documents = loader.load()
# documents

 # Charger tous les fichiers correctement

In [2]:
from langchain.document_loaders import DirectoryLoader

directory_path = "/content/drive/MyDrive/MES_COURS/L3/ChatBot/EXAM_RAG/corpus"

loader = DirectoryLoader(directory_path, glob="*.pdf", show_progress=True)
documents = loader.load()

print(f"Nombre de documents chargés : {len(documents)}")


100%|██████████| 25/25 [02:17<00:00,  5.49s/it]

Nombre de documents chargés : 25





# Segmentation efficace du texte

In [5]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=600,  # Augmenter la taille des morceaux pour une meilleure compréhension
    chunk_overlap=150
)

chunks = text_splitter.split_documents(documents)
print(f"🔹 Nombre total de chunks : {len(chunks)}")


🔹 Nombre total de chunks : 1179


In [None]:
# # Découper le texte en petits morceaux
# text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
# chunks = text_splitter.split_documents(documents)

In [None]:
# chunks[1].page_content

# Stockage dans FAISS avec l'Embedding Model

In [6]:
from langchain.vectorstores import FAISS
from langchain_google_genai import GoogleGenerativeAIEmbeddings

embedding_model_name = "models/embedding-001"
API_KEY = "AIzaSyDOFi3F068et2KSyo5aqoOSKUpN2Q65toA"

embedding_model = GoogleGenerativeAIEmbeddings(model=embedding_model_name, google_api_key=API_KEY)
vector_store = FAISS.from_documents(chunks, embedding_model)

print("Base de données vectorielle créée avec succès !")


Base de données vectorielle créée avec succès !


Transformer chaque chunk en vecteur numérique et les stocker dans une base de données vectorielle.

Outils utilisés :
- Embeddings de Gemini ou OpenAI pour transformer le texte en vecteurs.
- FAISS pour stocker et indexer ces vecteurs efficacement.

In [None]:
# from langchain.vectorstores import FAISS
# from langchain_google_genai import GoogleGenerativeAIEmbeddings



# # Convertir les chunks en vecteurs
# embedding_model_name = "models/embedding-001"
# API_KEY = "AIzaSyDOFi3F068et2KSyo5aqoOSKUpN2Q65toA"

# embedding_model = GoogleGenerativeAIEmbeddings(model=embedding_model_name, google_api_key=API_KEY)
# vector_store = FAISS.from_documents(chunks, embedding_model)

In [7]:
type(vector_store)

### 1. Le Module de Recherche (Retriever)

Le module de recherche est responsable de la sélection de documents pertinents à partir d'une base de connaissances. Ce module est essentiel pour fournir au modèle des informations à jour et spécifiques au contexte de la requête.

**Fonctionnement du Retriever**

1. **Embedding de la Question**:
Conversion de la question en vecteur

2. **Recherche de Similarité**:
Calcul des distances (cosinus, euclidienne)

3. **Sélection** des K documents les plus pertinents (K est un hyperparamètre)

# Requête globale sur tous les fichiers

In [12]:
query = "liste des Projets qui du portes par le 3fpt"

retrieved_docs = vector_store.similarity_search(query, k=5)  # Augmenter k pour plus de contexte

# Afficher les documents récupérés
for i, doc in enumerate(retrieved_docs, 1):
    print(f"Résultat {i} :")
    print(doc.page_content)
    print("------------------------")


Résultat 1 :
Fonds de Financement de la Formation professionnelle et technique

professionnelle et technique

120

ZOOM SUR ZOOM SUR

A la ﬁ n de l’année 2023, le 3FPT a poursuivi le ﬁ nancement de projets engagés de 2019 à 2023. Il s’agit de :

 75 projets d’investissements (PI) et 2

avenants sur contrats  30 plans stratégiques de développement (PSD)

 82 projets de formation insertion (PFI) dont 27 avec investissements

 23 projets de formation de

formateurs

 106 Contrats de Projets de

Formation Qualiﬁ ante des jeunes


------------------------
Résultat 2 :
Les activités visent l’augmentation du nombre de personnes disposant de qualifications pertinentes et de bonne qualité pour le marché du travail, ainsi que la promotion des services d’insertion professionnelle. Pour ce volet, le 3FPT doit former au moins 2600 jeunes sur une durée de 3 ans, répartis dans les zones couvertes par le projet.
------------------------
Résultat 3 :
Les activités visent l’augmentation du nombre 

In [None]:
# # Rechercher les documents les plus proches
# query = "c'est quoi un pole emploie?" #Une question sur le document
# retrieved_docs = vector_store.similarity_search(query, k=3)

# # Afficher les documents récupérés
# for doc in retrieved_docs:
#     print(doc.page_content)
#     print("------------------------")


### 2. Le Module de Génération (Generator)

Le module de génération est responsable de produire une réponse cohérente et contextuellement appropriée en se basant sur les documents récupérés par le retriever.

**Fonctionnement du Generator**

1. **Préparation du contexte** : Les documents récupérés par le retriever sont concaténés en un seul bloc.

2. **Construction du prompt** : Structuration du prompt pour donner du contexte au LLM.

3. **Génération de réponse** : Utilisation d’un LLM pour formuler une réponse en s’appuyant sur le contexte.



In [13]:
from langchain_google_genai.chat_models import ChatGoogleGenerativeAI
from langchain.schema import SystemMessage, HumanMessage

# Charger le modèle de génération
llm_model = "gemini-1.5-flash"
chat_model = ChatGoogleGenerativeAI(model=llm_model, api_key=API_KEY)


# Créer le prompt avec le contexte récupéré
context = "\n\n".join([doc.page_content for doc in retrieved_docs])
prompt = f"Document : {context}\n\nQuestion : {query}\nRéponse détaillée :"

messages = [
    SystemMessage(content=
        "Tu es Afdel, un assistant virtuel raffiné et perspicace, doté d’une éloquence naturelle. "
        "Tu réponds avec clarté, élégance et spontanéité, en t’appuyant sur les informations issues des documents fournis. "
        "Ta mission est d’offrir des réponses pertinentes et nuancées, reformulées avec tes propres mots pour une meilleure compréhension. "
        "Ton ton est chaleureux, engageant et professionnel, sans jamais citer tes sources explicitement. "
        "Tu adaptes ton style en fonction du contexte et de ton interlocuteur, avec une touche d’intelligence et de finesse."
    ),
    HumanMessage(content=prompt)
]


# Générer la réponse
response = chat_model(messages)
print(response.content)


Le Fonds de Financement de la Formation professionnelle et technique (3FPT) a mené une variété de projets en 2023, s'appuyant sur des initiatives lancées entre 2019 et 2023.  Ces projets couvrent un large spectre d'actions visant à améliorer les qualifications professionnelles et l'insertion professionnelle des jeunes.

On peut notamment citer :

* **Des investissements dans des infrastructures et équipements:**  75 projets d'investissements (et 2 avenants) ont été soutenus.
* **Des plans stratégiques de développement:**  30 plans stratégiques ont été financés pour améliorer la planification et l'efficacité des formations.
* **Des projets de formation et d'insertion professionnelle:** 82 projets ont été mis en œuvre, dont 27 intégraient un volet investissement.  Ceci souligne l'importance donnée à la fois à la formation et à l'accompagnement vers l'emploi.
* **Des formations de formateurs:** 23 projets ont été dédiés à la formation des enseignants et des formateurs, un élément clé pour

In [14]:
chemin_dir = "/content/drive/MyDrive/MES COURS/L3/ChatBot/Faiss"

# Sauvegarder la base de données vectorielle FAISS
vector_store.save_local(chemin_dir)

# Charger ultérieurement la base de données vectorielle
from langchain.vectorstores import FAISS

# Activer la désérialisation dangereuse en toute sécurité si vous avez créé le fichier
vector_store = FAISS.load_local(
    chemin_dir,
    embedding_model,
    allow_dangerous_deserialization=True  # Autorisation explicite
)
print
