# üìò Syst√®mes de QA : RAG et RLHF

Dans ce notebook, nous pr√©sentons **deux techniques distinctes** pour la construction de syst√®mes de Question-R√©ponse (QA), chacune √©tant **ind√©pendante** de l'autre. Elles illustrent deux approches diff√©rentes pour produire des r√©ponses pertinentes √† partir d‚Äôune question pos√©e.



üîπ **Premi√®re partie ‚Äì RAG (Retrieval-Augmented Generation)**  
Cette premi√®re partie introduit l‚Äôapproche RAG, qui combine la r√©cup√©ration d‚Äôinformations pertinentes √† partir de documents avec la g√©n√©ration de texte.  
Le principe consiste √† enrichir la r√©ponse √† une question en s‚Äôappuyant sur des passages extraits dynamiquement d‚Äôune source externe.



üîπ **Deuxi√®me partie ‚Äì RLHF (Reinforcement Learning with Human Feedback)**  
La deuxi√®me partie explore une autre approche, bas√©e sur l'apprentissage par renforcement guid√© par des retours humains.  
Elle vise √† affiner un mod√®le de g√©n√©ration pour qu‚Äôil produise des r√©ponses plus align√©es avec des attentes humaines, en s‚Äôappuyant sur des techniques d‚Äôoptimisation via feedback.



‚úÖ Ces deux approches sont trait√©es **s√©par√©ment** dans ce notebook. Chacune a son propre pipeline, ses mod√®les et ses donn√©es.

‚û°Ô∏è Commen√ßons maintenant par la premi√®re approche : **RAG (Retrieval-Augmented Generation)**.


# I-La technique RAG
## üîß √âtapes principales du pipeline

1. Importation des biblioth√®ques n√©cessaires  
2. Extraction du texte depuis un fichier PDF  
3. Division du texte en paragraphes  
4. Cr√©ation des repr√©sentations vectorielles (embeddings) 
5. Indexation vectorielle 
6. Recherche des passages pertinents  
7. Construction du contexte  
8. G√©n√©ration de la r√©ponse avec un mod√®le flan-T5-base


##  1. Importations des biblioth√®ques


In [None]:
import fitz  
import re
import numpy as np
import faiss
from sentence_transformers import SentenceTransformer
from transformers import pipeline


##  2. Fonctions de traitement de texte
### üîπ Extraction du texte depuis le PDF


In [None]:
def extract_text_from_pdf(pdf_path):
    doc = fitz.open(pdf_path)
    text = ""
    for page in doc:
        text += page.get_text()
    doc.close()
    return text


### üîπ D√©coupage du texte en paragraphes


In [None]:
def split_text_into_paragraphs(full_text, max_chars=200):
    paragraphs = []
    start = 0
    while start < len(full_text):
        end = start + max_chars
        if end < len(full_text):
            while end > start and full_text[end] not in [' ', '.', '\n']:
                end -= 1
            if end == start:
                end = start + max_chars
        paragraph = full_text[start:end].strip()
        paragraphs.append(paragraph)
        start = end
    return paragraphs


##  3. Fonctions pour l'encodage et l'indexation
### üîπ Cr√©ation des vecteurs


In [None]:
def create_embeddings(paragraphs, embedding_model):
    return embedding_model.encode(paragraphs)


### üîπ Cr√©ation de l‚Äôindex FAISS


In [None]:
def create_faiss_index(embeddings):
    embeddings_np = np.array(embeddings).astype('float32')
    index = faiss.IndexFlatL2(embeddings_np.shape[1])
    index.add(embeddings_np)
    return index


### üîπ Recherche dans l‚Äôindex


In [None]:
def search_faiss_index(query, index, embedding_model, k):
    query_embedding = embedding_model.encode([query])[0]
    scores, indices = index.search(np.array([query_embedding]).astype('float32'), k)
    return indices[0]


## 4. G√©n√©ration de la r√©ponse avec un mod√®le flan-T5-base


In [None]:
def generate_answer(question, context, qa_pipeline):
    prompt = (
        f"R√©ponds √† la question suivante en utilisant le contexte fourni.\n"
        f"Contexte : {context}\n"
        f"Question : {question}"
    )
    return qa_pipeline(prompt, max_new_tokens=150, truncation=True)[0]['generated_text']


# 5. Pipeline Principal
Voici l‚Äôex√©cution compl√®te du syst√®me RAG.

In [None]:
# === Pipeline Principal ===
if __name__ == "__main__":
        # 1. Sp√©cifier le chemin vers le fichier PDF
    pdf_path = "C:/Users/fatim/OneDrive/Bureau/RAG_Project/d√©finitions_g√©n√©rales.pdf"

    # 2. Extraction du texte et d√©coupage
    full_text = extract_text_from_pdf(pdf_path)
    paragraphs = split_text_into_paragraphs(full_text)

    # Affichage du nombre de paragraphes extraits
    print(f"Nombre de paragraphes extraits : {len(paragraphs)}\n")

    # Affichage des premiers paragraphes extraits pour v√©rification
    print("Quelques paragraphes extraits :\n")
    for i, paragraph in enumerate(paragraphs[:5]):  # Afficher les 5 premiers paragraphes
        print(f"Paragraphe {i+1}: {paragraph}\n")

    # 3. Embedding
    embedding_model = SentenceTransformer('all-MiniLM-L6-v2')
    embeddings = create_embeddings(paragraphs, embedding_model)

    # 4. Indexation
    index = create_faiss_index(embeddings)

    # 5. Recherche d'information
    query = "C'est quoi l'innovation ?"
    k = 3
    relevant_indices = search_faiss_index(query, index, embedding_model, k)
    relevant_indices = [int(i) for i in relevant_indices if i >= 0]

    print("La question pos√©e : ",query)

    # Affichage des indices des passages pertinents
    print(f"Indices des passages pertinents : {relevant_indices}\n")

    # Affichage des passages pertinents
    print("Passages pertinents extraits :\n")
    for i in relevant_indices:
        print(f"Passage {i+1}: {paragraphs[i]}\n")

    # 6. Construction du contexte
    context = "\n".join([paragraphs[i] for i in relevant_indices])

    # Affichage du contexte
    print(f"Contexte utilis√© pour g√©n√©rer la r√©ponse : \n{context}\n")

    # 7. G√©n√©ration de la r√©ponse
    qa_pipeline = pipeline("text2text-generation", model="google/flan-t5-base")
    answer = generate_answer(query, context, qa_pipeline)

    # Affichage de la r√©ponse g√©n√©r√©e
    print("\nR√©ponse g√©n√©r√©e :\n", answer)


# Resultat de l'ex√©cution du pipeline principal :

Nombre de paragraphes extraits : 14

Quelques paragraphes extraits :

Paragraphe 1: L‚Äôintelligence artificielle (IA) est un ensemble de techniques permettant √† des machines d‚Äôimiter
des fonctions cognitives humaines telles que l‚Äôapprentissage, le raisonnement, la r√©solution de

Paragraphe 2: probl√®mes ou la compr√©hension du langage.
L‚ÄôADN (acide d√©soxyribonucl√©ique) est une mol√©cule pr√©sente dans toutes les cellules vivantes et qui
contient les instructions g√©n√©tiques n√©cessaires au

Paragraphe 3: d√©veloppement et au fonctionnement des
organismes.
Le droit p√©nal est la branche du droit qui d√©finit les infractions et d√©termine les peines
applicables aux personnes qui les commettent.
Le

Paragraphe 4: r√©chauffement climatique d√©signe l‚Äôaugmentation progressive des temp√©ratures moyennes √† la
surface de la Terre, principalement caus√©e par les activit√©s humaines et les √©missions de gaz √†
effet de

Paragraphe 5: serre.
La d√©mocratie est un syst√®me politique dans lequel le pouvoir est exerc√© par le peuple, soit
directement, soit par l‚Äôinterm√©diaire de repr√©sentants √©lus.
Un algorithme est une suite finie

La question pos√©e :  C'est quoi l'innovation ?

Indices des passages pertinents : [11, 12, 10]

Passages pertinents extraits :

Passage 12: concepts.
L‚Äôinnovation est l‚Äôintroduction d‚Äôune nouveaut√© (produit, service, proc√©d√© ou organisation) qui
apporte une am√©lioration significative par rapport √† l‚Äôexistant.
Une r√©cession est une baisse

Passage 13: prolong√©e de l‚Äôactivit√© √©conomique, g√©n√©ralement mesur√©e par une
diminution du PIB pendant au moins deux trimestres cons√©cutifs.
Une machine virtuelle est un environnement logiciel qui simule un

Passage 11: cyberattaques.
L‚Äôabstraction en art d√©signe un style dans lequel les formes, les couleurs et les lignes ne
repr√©sentent pas directement la r√©alit√©, mais expriment des id√©es, des √©motions ou des

Contexte utilis√© pour g√©n√©rer la r√©ponse :
concepts.
L‚Äôinnovation est l‚Äôintroduction d‚Äôune nouveaut√© (produit, service, proc√©d√© ou organisation) qui
apporte une am√©lioration significative par rapport √† l‚Äôexistant.
Une r√©cession est une baisse
prolong√©e de l‚Äôactivit√© √©conomique, g√©n√©ralement mesur√©e par une
diminution du PIB pendant au moins deux trimestres cons√©cutifs.
Une machine virtuelle est un environnement logiciel qui simule un
cyberattaques.
L‚Äôabstraction en art d√©signe un style dans lequel les formes, les couleurs et les lignes ne
repr√©sentent pas directement la r√©alit√©, mais expriment des id√©es, des √©motions ou des

Device set to use cpu

R√©ponse g√©n√©r√©e :
 l‚Äôintroduction d‚Äôune nouveaut√© (produit, service, proc√©d√© ou organisation) qui apporte une am√©lioration significative par rapport √† l‚Äôexistant 

# II- La technique RLHF

## üîß √âtapes principales du pipeline
1. Importation des biblioth√®ques n√©cessaires    
2. G√©n√©ration de la r√©ponse (mod√®le / politique) 
3. √âvaluation par retour humain (fonction de r√©compense)
4. Boucle d‚Äôentra√Ænement (it√©rations/√©poques)  

##  1. Importations des biblioth√®ques

In [None]:
import random

##  2.  G√©n√©ration de la r√©ponse (mod√®le / politique) 


In [None]:
def model(input_text):
    responses = ["Bonjour !", "Salut !", "Je ne sais pas.", "Tr√®s bien."]
    return random.choice(responses)

##  3. üë§ √âvaluation par retour humain (fonction de r√©compense)


In [None]:
def human_feedback(response):
    good_responses = ["Bonjour !", "Tr√®s bien."]
    return 1 if response in good_responses else 0

## 4. üîÑ Boucle d‚Äôentra√Ænement (it√©rations/√©poques)

In [None]:
def train_model(epochs=10):
    for epoch in range(epochs):
        input_text = "Salut"  
        response = model(input_text)
        reward = human_feedback(response)
        print(f"Epoch {epoch+1}: R√©ponse: {response} | R√©compense: {reward}")
        

train_model()

# 5. Pipeline Principal
Voici l‚Äôex√©cution compl√®te du syst√®me RLHF.

In [None]:
import random
def model(input_text):
    responses = ["Bonjour !", "Salut !", "Je ne sais pas.", "Tr√®s bien."]
    return random.choice(responses)
def human_feedback(response):
    good_responses = ["Bonjour !", "Tr√®s bien."]
    return 1 if response in good_responses else 0
def train_model(epochs=10):
    for epoch in range(epochs):
        input_text = "Salut"  
        response = model(input_text)
        reward = human_feedback(response)
        print(f"Epoch {epoch+1}: R√©ponse: {response} | R√©compense: {reward}")
        

train_model()


# 6. R√©sultats

In [None]:
PS C:\Users\USER> & "C:/Program Files/Python311/python.exe" c:/Users/USER/moncode.py
Epoch 1: R√©ponse: Je ne sais pas. | R√©compense: 0
Epoch 2: R√©ponse: Salut ! | R√©compense: 0        
Epoch 3: R√©ponse: Salut ! | R√©compense: 0        
Epoch 4: R√©ponse: Salut ! | R√©compense: 0        
Epoch 5: R√©ponse: Tr√®s bien. | R√©compense: 1     
Epoch 6: R√©ponse: Bonjour ! | R√©compense: 1      
Epoch 7: R√©ponse: Je ne sais pas. | R√©compense: 0
Epoch 8: R√©ponse: Salut ! | R√©compense: 0        
Epoch 9: R√©ponse: Tr√®s bien. | R√©compense: 1     
Epoch 10: R√©ponse: Tr√®s bien. | R√©compense: 1    
PS C:\Users\USER> 

Ce code simule de mani√®re simple le principe du RLHF (Reinforcement Learning from Human Feedback) en g√©n√©rant al√©atoirement des r√©ponses √† une entr√©e fixe ("Salut") √† l‚Äôaide d‚Äôun faux mod√®le, puis en les √©valuant √† l‚Äôaide d‚Äôun retour humain simul√© (une fonction qui attribue une r√©compense de 1 si la r√©ponse est jug√©e "bonne", sinon 0). Lors de chaque it√©ration, le mod√®le g√©n√®re une r√©ponse, re√ßoit un feedback, et affiche la r√©compense obtenue. Bien que le mod√®le ne s‚Äôam√©liore pas r√©ellement au fil du temps (aucune mise √† jour n‚Äôest effectu√©e), ce code illustre le principe fondamental du RLHF : produire une sortie, recevoir un retour humain, et utiliser ce retour pour guider l‚Äôapprentissage.