## Installation des d√©pendances

Ex√©cutez cette cellule en premier pour installer tous les packages n√©cessaires. Cette op√©ration peut prendre quelques minutes.

# Projet RAG - Syst√®me de Recherche et G√©n√©ration Augment√©e

Ce notebook impl√©mente un syst√®me RAG (Retrieval-Augmented Generation) pour r√©pondre √† des questions bas√©es sur des documents PDF de cours d'intelligence artificielle. Le syst√®me utilise des embeddings multilingues, un retriever hybride et un mod√®le de langage pour g√©n√©rer des r√©ponses pr√©cises.

## √âtape 1 : Imports et configuration

Dans cette √©tape, nous importons les biblioth√®ques n√©cessaires et configurons l'environnement. Nous chargeons √©galement la cl√© API OpenRouter depuis un fichier .env pour √©viter de l'exposer dans le code.

In [24]:
import os
from dotenv import load_dotenv
from PyPDF2 import PdfReader

# ‚úÖ Imports corrig√©s pour LangChain >= 1.0.0
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS
from langchain_community.chat_models import ChatOpenAI
from langchain_classic.chains import RetrievalQA  # ‚úÖ for v1.0.3
from langchain_classic.retrievers import EnsembleRetriever  # ‚úÖ changed import
from langchain_community.retrievers import BM25Retriever  # ‚úÖ still valid
load_dotenv()

# üîë Cl√© OpenRouter
OPENROUTER_API_KEY = os.getenv("OPENROUTER_API_KEY")
if not OPENROUTER_API_KEY:
    raise ValueError("Merci de mettre ta cl√© OPENROUTER_API_KEY dans le fichier .env")

## √âtape 2 : Chargement et extraction des textes des PDF

Ici, nous parcourons le dossier 'data/' pour lire tous les fichiers PDF. Pour chaque PDF, nous extrayons le texte de toutes les pages, en nettoyant les espaces et les sauts de ligne. Les textes sont stock√©s dans une liste avec des m√©tadonn√©es sur la source.

In [34]:
import pickle

import os



# Charger les documents depuis le cache si disponible

if os.path.exists("raw_documents.pkl"):

    with open("raw_documents.pkl", "rb") as f:

        raw_documents = pickle.load(f)

    print(f"Documents charg√©s depuis le cache : {len(raw_documents)} cours PDF.")

else:

    folder_path = "data/"  # dossier contenant tous les PDFs

    raw_documents = []

    

    for filename in os.listdir(folder_path):

        if filename.lower().endswith(".pdf"):

            pdf_path = os.path.join(folder_path, filename)

            reader = PdfReader(pdf_path)

            page_texts = []

            for page in reader.pages:

                content = (page.extract_text() or "").replace("\n", " ").strip()

                if content:

                    page_texts.append(content)

            full_text = " ".join(page_texts)

            if full_text:

                raw_documents.append({"text": full_text, "metadata": {"source": filename}})

    

    if not raw_documents:

        raise ValueError("Aucun texte extrait des PDFs. V√©rifie que le dossier data/ contient des fichiers PDF lisibles.")

    

    # Sauvegarder les documents extraits

    with open("raw_documents.pkl", "wb") as f:

        pickle.dump(raw_documents, f)

    print(f"Nombre de cours PDF exploitables : {len(raw_documents)} (sauvegard√© dans raw_documents.pkl)")

Nombre de cours PDF exploitables : 4 (sauvegard√© dans raw_documents.pkl)


## √âtape 3 : D√©coupage des textes en chunks

Les textes longs sont divis√©s en morceaux plus petits (chunks) pour faciliter la recherche. Nous utilisons un splitter r√©cursif avec une taille de chunk de 350 caract√®res et un chevauchement de 120 caract√®res pour conserver le contexte entre les chunks.

In [35]:
import pickle

import os



# Charger les chunks depuis le cache si disponible

if os.path.exists("documents_chunks.pkl"):

    with open("documents_chunks.pkl", "rb") as f:

        documents = pickle.load(f)

    print(f"Chunks charg√©s depuis le cache : {len(documents)} chunks.")

else:

    text_splitter = RecursiveCharacterTextSplitter(

        chunk_size=350,

        chunk_overlap=120

    )

    

    documents = []

    for item in raw_documents:

        splitted_docs = text_splitter.create_documents([item["text"]], metadatas=[item["metadata"]])

        for idx, doc in enumerate(splitted_docs):

            doc.metadata["chunk_index"] = idx

        documents.extend(splitted_docs)

    

    if not documents:

        raise ValueError("Aucun chunk g√©n√©r√©. V√©rifie les textes extraits.")

    

    # Sauvegarder les chunks

    with open("documents_chunks.pkl", "wb") as f:

        pickle.dump(documents, f)

    print(f"Total de chunks index√©s : {len(documents)} (sauvegard√© dans documents_chunks.pkl)")

Total de chunks index√©s : 275 (sauvegard√© dans documents_chunks.pkl)


## √âtape 4 : Cr√©ation des embeddings

Nous cr√©ons des repr√©sentations vectorielles (embeddings) des chunks de texte en utilisant un mod√®le multilingue. Ces embeddings sont normalis√©s pour am√©liorer la similarit√© cosinus. Nous stockons ensuite ces vecteurs dans une base de donn√©es FAISS pour une recherche rapide.

## Note importante sur la sauvegarde

Les √©tapes pr√©c√©dentes sauvegardent automatiquement les r√©sultats interm√©diaires :
- **raw_documents.pkl** : Documents extraits des PDF
- **documents_chunks.pkl** : Chunks de texte d√©coup√©s
- **faiss_index/** : Index FAISS avec les embeddings

Si vous r√©ex√©cutez le notebook, ces fichiers seront charg√©s directement depuis le disque au lieu d'√™tre recalcul√©s, ce qui acc√©l√®re consid√©rablement le temps d'ex√©cution.

In [36]:
import os



embedding_model = HuggingFaceEmbeddings(

    model_name="intfloat/multilingual-e5-large",

    encode_kwargs={"normalize_embeddings": True}

)



# Charger l'index FAISS depuis le disque si disponible

if os.path.exists("faiss_index"):

    vectorstore = FAISS.load_local("faiss_index", embedding_model, allow_dangerous_deserialization=True)

    print("Index FAISS charg√© depuis le disque.")

else:

    vectorstore = FAISS.from_documents(documents, embedding_model)

    print("Index FAISS construit avec embeddings e5.")

    # Sauvegarder l'index FAISS sur le disque pour √©viter de le recalculer

    vectorstore.save_local("faiss_index")

    print("Index FAISS sauvegard√© dans le dossier 'faiss_index'.")

Index FAISS construit avec embeddings e5.
Index FAISS sauvegard√© dans le dossier 'faiss_index'.


## √âtape 5 : Configuration du retriever hybride

Pour am√©liorer la pr√©cision de la recherche, nous utilisons un retriever hybride qui combine la recherche dense (bas√©e sur les embeddings) et la recherche sparse (BM25, bas√©e sur les mots-cl√©s). Le retriever dense utilise MMR pour la diversit√©, et nous pond√©rons les r√©sultats avec 65% pour dense et 35% pour sparse.

In [37]:
dense_retriever = vectorstore.as_retriever(
    search_type="mmr",  # Maximum Marginal Relevance pour diversit√©
    search_kwargs={"k": 3, "fetch_k": 4}
)

sparse_retriever = BM25Retriever.from_documents(documents)
sparse_retriever.k = 8

hybrid_retriever = EnsembleRetriever(
    retrievers=[dense_retriever, sparse_retriever],
    weights=[0.65, 0.35]
)

## √âtape 6 : Configuration du mod√®le de langage

Nous configurons le mod√®le GPT-4o-mini via OpenRouter. La temp√©rature est r√©gl√©e √† 0.4 pour des r√©ponses plus factuelles. Nous utilisons des en-t√™tes personnalis√©s pour respecter les exigences d'OpenRouter.

In [38]:
llm = ChatOpenAI(
    model_name="gpt-4o-mini",
    temperature=0.4,  # temp√©rature plus basse pour des r√©ponses plus factuelles
    openai_api_key=OPENROUTER_API_KEY,
    openai_api_base="https://openrouter.ai/api/v1",
    default_headers={
        "HTTP-Referer": "https://github.com/your-user/your-repo",
        "X-Title": "RAG Notebook",
    }
)

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=hybrid_retriever,
    return_source_documents=True,
    chain_type="stuff"
)

## √âtape 7 : Exemple de recherche et g√©n√©ration de r√©ponse

Nous testons le syst√®me avec une question sur les d√©fis de l'intelligence artificielle. Le retriever r√©cup√®re les chunks pertinents, puis le mod√®le g√©n√®re une r√©ponse bas√©e sur ces informations. Les sources utilis√©es sont affich√©es pour la transparence.

In [39]:
query = "Expliquer les principaux d√©fis de l‚Äôintelligence artificielle"

result = qa_chain(query)

print("R√©ponse du mod√®le :")
print(result["result"])

print("\nSources utilis√©es :")
for i, doc in enumerate(result["source_documents"]):
    print(f"Source {i} ({doc.metadata.get('source')}, chunk {doc.metadata.get('chunk_index')})")
    print(doc.page_content[:300], "...\n")

R√©ponse du mod√®le :
Les principaux d√©fis de l'intelligence artificielle (IA) incluent :

1. **Difficult√©s li√©es aux donn√©es ou √† l‚Äôenvironnement** : Les biais humains pr√©sents dans les donn√©es peuvent entra√Æner des discriminations dans des domaines tels que le recrutement, le cr√©dit, la justice ou la sant√©. Par exemple, la reconnaissance faciale peut √™tre moins pr√©cise pour certaines ethnies si les donn√©es utilis√©es pour l'entra√Ænement sont d√©s√©quilibr√©es.

2. **Limites de l‚ÄôIA pour r√©soudre le probl√®me** : L'IA peut √™tre limit√©e dans sa capacit√© √† traiter des situations complexes ou impr√©vues, ce qui peut affecter son efficacit√©.

3. **Co√ªts computationnels et √©nerg√©tiques** : Certains mod√®les d'IA, comme les grands mod√®les de langage, n√©cessitent d'importantes ressources mat√©rielles et √©nerg√©tiques pour leur entra√Ænement, ce qui peut √™tre tr√®s co√ªteux.

4. **Limites √©thiques et l√©gales** : L'IA soul√®ve des questions de responsabilit√© e

## √âtape 8 : G√©n√©ration d'un quiz

Enfin, nous demandons au syst√®me de g√©n√©rer un quiz bas√© sur les documents. Cela d√©montre la capacit√© du RAG √† cr√©er du contenu nouveau et pertinent √† partir des informations r√©cup√©r√©es.

In [40]:
query_quiz = """
G√©n√®re 5 questions de quiz avec 4 choix avec r√©ponses √† partir des passages pertinents
des cours sur l‚Äôintelligence artificielle.
"""

result_quiz = qa_chain(query_quiz)

print("Quiz g√©n√©r√© :")
print(result_quiz["result"])

Quiz g√©n√©r√© :
1. Quelle est l'une des principales pr√©occupations √©thiques li√©es √† l'intelligence artificielle ?
   a) La rapidit√© des calculs  
   b) Le co√ªt computationnel  
   c) La responsabilit√© en cas d'erreur de l'IA  
   d) La taille des mod√®les  
   **R√©ponse : c) La responsabilit√© en cas d'erreur de l'IA**

2. Quel est un exemple de d√©fi que l'IA doit surmonter lors de l'apprentissage √† partir de donn√©es ?
   a) L'augmentation des ressources humaines  
   b) La g√©n√©ralisation et le transfert de mod√®les  
   c) La cr√©ation de nouveaux algorithmes  
   d) L'optimisation des co√ªts  
   **R√©ponse : b) La g√©n√©ralisation et le transfert de mod√®les**

3. Dans quel domaine l'IA peut-elle √™tre utilis√©e pour analyser des tendances, comme le chiffre d'affaires mensuel ?
   a) En √©ducation  
   b) En sant√©  
   c) En entreprise  
   d) Dans le divertissement  
   **R√©ponse : c) En entreprise**

4. Quel type d'IA apprend en interagissant avec un environnement 