<a href="https://colab.research.google.com/github/Majidghne/Projet-RAG-Retrieval-Augmented-Generation-/blob/main/Rag.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Projet RAG (Retrieval-Augmented Generation) avec Optimisation du Chunking**

Ce notebook pr√©sente une impl√©mentation de Retrieval-Augmented Generation (RAG) en utilisant ChromaDB comme base de donn√©es vectorielle et l'API d'OpenRouter pour la g√©n√©ration de texte. L'objectif principal est de d√©montrer l'importance de l'optimisation du *chunking* (d√©coupage du texte) pour am√©liorer la pertinence des r√©ponses du mod√®le. Nous explorerons diff√©rentes strat√©gies de *chunking* et leurs impacts sur les r√©sultats.

## **√âtapes cl√©s du projet :**

1.  **Installation des D√©pendances :** Mise en place de toutes les biblioth√®ques n√©cessaires.
2.  **Lecture de Documents :** Fonctions pour lire diff√©rents formats de fichiers (PDF, DOCX, TXT).
3.  **Ingestion des Donn√©es :** T√©l√©chargement et traitement d'un document PDF dans ChromaDB.
4.  **Impl√©mentation RAG Initiale :** D√©monstration d'un syst√®me RAG basique avec un *chunking* simple.
5.  **Optimisation du Chunking :** Exploration de deux m√©thodes avanc√©es (*sentence-based* et *LangChain RecursiveCharacterTextSplitter*) pour un d√©coupage plus s√©mantique.
6.  **Comparaison des R√©sultats :** Analyse de l'impact des diff√©rentes techniques de *chunking* sur la qualit√© des r√©ponses.

## **1. Installation des D√©pendances**

Nous commen√ßons par installer les biblioth√®ques Python n√©cessaires pour le traitement des documents, la cr√©ation d'embeddings, la base de donn√©es vectorielle (ChromaDB) et l'acc√®s √† l'API d'OpenAI/OpenRouter.

In [None]:
# Installer les biblioth√®ques n√©cessaires
!pip install -qU chromadb # Base de donn√©es vectorielle pour le stockage des embeddings
!pip install -qU openai # Acc√®s √† l'API OpenAI/OpenRouter pour les mod√®les de langage
!pip install -qU pypdf2 # Pour la lecture et l'extraction de texte √† partir de fichiers PDF
!pip install -qU python-docx # Pour la lecture et l'extraction de texte √† partir de fichiers Word
!pip install -qU sentence-transformers # Pour la cr√©ation d'embeddings (repr√©sentations vectorielles de texte)

## **2. Fonctions de Lecture de Documents**

Ces fonctions permettent de lire le contenu textuel de diff√©rents types de fichiers (PDF, Word, TXT). Une fonction unifi√©e `read_document` g√®re la d√©tection du format et l'appel de la fonction de lecture appropri√©e.

In [None]:
import PyPDF2 # Importe la biblioth√®que pour la lecture de fichiers PDF
import docx # Importe la biblioth√®que pour la lecture de fichiers DOCX
import os # Importe le module os pour les op√©rations sur les chemins de fichiers

def read_text_file(file_path: str):
    """Lire le contenu d'un fichier texte"""
    with open(file_path, 'r', encoding='utf-8') as file:
        return file.read()

def read_pdf_file(file_path: str):
  """Lire le contenu d'un fichier PDF"""
  text=""
  with open(file_path, 'rb') as file: # Ouvre le fichier PDF en mode binaire
    pdf_reader=PyPDF2.PdfReader(file) # Cr√©e un objet PdfReader
    for page in pdf_reader.pages: # It√®re sur chaque page du PDF
      text += page.extract_text() + "\n" # Extrait le texte de la page et l'ajoute
  return text

def read_docx_file(file_path: str):
  """Lire le contenu d'un fichier Word"""
  doc = docx.Document(file_path) # Ouvre le document Word
  return "\n".join([paragraph.text for paragraph in doc.paragraphs]) # Extrait le texte de chaque paragraphe et le joint

In [None]:
def read_document(file_path: str):
    """Lit le contenu d'un document en fonction de son extension de fichier."""
    _, file_extension = os.path.splitext(file_path) # Extrait l'extension du fichier
    file_extension = file_extension.lower() # Convertit l'extension en minuscules
    if file_extension == ".txt":
        return read_text_file(file_path)
    elif file_extension == ".pdf":
        return read_pdf_file(file_path)
    elif file_extension == ".docx":
        return read_docx_file(file_path)
    else:
        raise ValueError(f"Format de fichier non support√©: {file_extension}")

## **3. T√©l√©chargement et Traitement du Document**

Nous t√©l√©chargeons un document PDF √† partir de Google Drive. Ce document servira de source de connaissances pour notre syst√®me RAG. Nous le lisons et affichons un extrait pour v√©rification.

In [None]:
# T√©l√©charge le fichier PDF depuis Google Drive
!gdown "https://drive.google.com/uc?id=1TywvYowEeL49qd-HKjr9-RUzjexz0N94"

Downloading...
From: https://drive.google.com/uc?id=1TywvYowEeL49qd-HKjr9-RUzjexz0N94
To: /content/thermodynamique-livre.pdf
100% 39.6M/39.6M [00:00<00:00, 92.7MB/s]


In [None]:
# Lister les fichiers pdf dans /content
files = [f for f in os.listdir("/content") if f.endswith(".pdf")] # Filtre les fichiers pour ne garder que les PDF

In [None]:
# Construit le chemin complet du dernier fichier PDF trouv√© (hypoth√®se qu'il s'agit du bon fichier)
file_path = os.path.join("/content", files[-1])

print(file_path)

text = read_document(file_path) # Lit le contenu du document PDF

print("\n======Extracted PDF Content=======\n")
print(text[:500]) # Affiche les 500 premiers caract√®res du texte extrait pour v√©rification

/content/thermodynamique-livre-gratuit.pdf


THERMODYNAMIQUE
DE L ‚ÄôING√âNIEUR
TROISI√àME √âDITION
OLIVIER CLEYNEN
THERMODYNAMIQUE.FR
Ce livre est gratuit.
Vous pouvez le t√©l√©charger, le lire, le partager, et m√™me le remixer : il est
publi√© sous licence CC by-sa . S‚Äôil vous est utile, pensez √† le citer ‚Äî c‚Äôest
important.
Si vous en avez les moyens, l‚Äôachat de la version
imprim√©e ou du pdfpayant aide √† faire vivre le
projet. (Aujourd‚Äôhui, parmi les lecteurs et lectrices,
environ 1 sur 400 le fait ‚Äî merci du fond du c≈ìur
si vous en faites partie


## **4. Impl√©mentation RAG Initiale : Chunking Basique**

Dans cette premi√®re approche, nous utilisons une m√©thode de *chunking* simple, bas√©e sur une taille de morceau fixe avec un chevauchement. Nous d√©finissons √©galement les fonctions pour la recherche s√©mantique avec ChromaDB et la g√©n√©ration de r√©ponses via l'API OpenRouter.

### **Fonction de Chunking Basique (`split_text`)**

Cette fonction d√©coupe le texte en morceaux de taille fixe (500 caract√®res par d√©faut) avec un chevauchement (100 caract√®res par d√©faut). Cette m√©thode est simple mais peut souvent entra√Æner une perte de coh√©rence s√©mantique en coupant les phrases ou les id√©es au milieu.

In [None]:
def split_text(text: str, chunk_size: int = 500, chunk_overlap: int = 100):
  """S√©pare le texte en morceaux plus petits avec une taille fixe et un chevauchement."""
  text = text.replace("\n", " ").strip() # Remplace les sauts de ligne par des espaces et nettoie le texte
  chunks = []
  start = 0
  length = len(text)

  while start < length:
        end = min(start + chunk_size, length) # D√©termine la fin du morceau, sans d√©passer la longueur du texte
        chunk = text[start:end].strip() # Extrait le morceau
        if chunk:
            chunks.append(chunk) # Ajoute le morceau si non vide
        start += chunk_size - chunk_overlap # Avance le d√©but du prochain morceau en consid√©rant le chevauchement

  return chunks

In [None]:
# Exemple de d√©coupage avec la fonction split_text
sample = "This is a very long paragraph of text that you want to split into smaller chunks for embedding or storage."
chunks = split_text(sample, chunk_size=10, chunk_overlap=2) # Teste avec une petite taille de morceau
print(chunks)

['This is a', 'a very lon', 'ong paragr', 'graph of t', 'text that', 'at you wan', 'ant to spl', 'plit into', 'o smaller', 'r chunks f', 'for embed', 'edding or', 'r storage.', 'e.']


In [None]:
# Applique le chunking basique au texte complet du document
chunks = split_text(text, chunk_size=500, chunk_overlap=50)

print("Chunk-01", chunks[0]) # Affiche le premier morceau
print("Chunk-02", chunks[1]) # Affiche le deuxi√®me morceau
print("Number of Chunks", len(chunks)) # Affiche le nombre total de morceaux

Chunk-01 THERMODYNAMIQUE DE L ‚ÄôING√âNIEUR TROISI√àME √âDITION OLIVIER CLEYNEN THERMODYNAMIQUE.FR Ce livre est gratuit. Vous pouvez le t√©l√©charger, le lire, le partager, et m√™me le remixer : il est publi√© sous licence CC by-sa . S‚Äôil vous est utile, pensez √† le citer ‚Äî c‚Äôest important. Si vous en avez les moyens, l‚Äôachat de la version imprim√©e ou du pdfpayant aide √† faire vivre le projet. (Aujourd‚Äôhui, parmi les lecteurs et lectrices, environ 1 sur 400 le fait ‚Äî merci du fond du c≈ìur si vous en faites partie
Chunk-02 t ‚Äî merci du fond du c≈ìur si vous en faites partie!) Bonne lecture! Olivier Cleynen, l‚Äôauteur. Thermodynamique de l‚Äôing√©nieur Olivier Cleynen Thermodynamique de l‚Äôing√©nieur Troisi√®me √©dition, 2021 par Olivier Cleynen ISBN: 9781794848207 Copyright 2015, 2018, 2021, 2025 Olivier Cleynen (les √©ditions de 2015 et 2018 √©taient publi√©es par Framasoft/Framabook) Thermodynamique de l‚Äôing√©nieur est plac√© sous licence Creative Commons : c b a

### **Initialisation de ChromaDB**

Nous configurons notre base de donn√©es vectorielle persistante (ChromaDB) et d√©finissons une fonction d'embedding (`all-MiniLM-L6-v2`) pour transformer nos morceaux de texte en vecteurs num√©riques.

In [None]:
import chromadb # Importe la biblioth√®que ChromaDB

from chromadb.utils import embedding_functions # Importe les fonctions d'embedding de ChromaDB

client = chromadb.PersistentClient(path="chroma_db") # Initialise un client ChromaDB persistant qui stocke les donn√©es localement dans le dossier "chroma_db"

sentence_transformer_ef = embedding_functions.SentenceTransformerEmbeddingFunction(
    model_name="all-MiniLM-L6-v2" # Utilise le mod√®le "all-MiniLM-L6-v2" pour cr√©er les embeddings
)

collection = client.get_or_create_collection(
    name="documents_collection", # Nom de la collection o√π les documents seront stock√©s
    embedding_function=sentence_transformer_ef # Fonction d'embedding √† utiliser pour cette collection
)

### **Traitement du Document pour ChromaDB**

La fonction `process_document` combine la lecture, le *chunking* et la pr√©paration des m√©tadonn√©es (source, num√©ro de morceau) pour l'ingestion dans ChromaDB.

In [None]:
def process_document(file_path: str):
  """Traite un document en le lisant, le d√©coupant (chunking) et pr√©parant les m√©tadonn√©es pour ChromaDB."""
  try:
        content = read_document(file_path) # Lit le contenu du document

        chunks = split_text(content) # D√©coupe le contenu en morceaux en utilisant la fonction de chunking basique

        file_name = os.path.basename(file_path) # Extrait le nom du fichier
        metadatas = [{"source": file_name, "chunk": i} for i in range(len(chunks))] # Cr√©e des m√©tadonn√©es pour chaque morceau (source et num√©ro de morceau)
        ids = [f"{file_name}_chunk_{i}" for i in range(len(chunks))] # G√©n√®re des IDs uniques pour chaque morceau

        return ids, chunks, metadatas # Retourne les IDs, les morceaux et leurs m√©tadonn√©es
  except Exception as e:
        print(f"Error processing {file_path}: {str(e)}")
        return [], [], []

### **V√©rification des Chunks Initiaux**

In [None]:
# Traite le document pour obtenir les IDs, les chunks et les m√©tadonn√©es
ids, chunks, metadatas = process_document(file_path)

In [None]:
# Affiche les informations du premier chunk pour v√©rification
print("id[0] -> ", ids[0])
print("metadatas[0] -> ", metadatas[0])
print("chunks[0] -> ", chunks[0])

id[0] ->  thermodynamique-livre-gratuit.pdf_chunk_0
metadatas[0] ->  {'source': 'thermodynamique-livre-gratuit.pdf', 'chunk': 0}
chunks[0] ->  THERMODYNAMIQUE DE L ‚ÄôING√âNIEUR TROISI√àME √âDITION OLIVIER CLEYNEN THERMODYNAMIQUE.FR Ce livre est gratuit. Vous pouvez le t√©l√©charger, le lire, le partager, et m√™me le remixer : il est publi√© sous licence CC by-sa . S‚Äôil vous est utile, pensez √† le citer ‚Äî c‚Äôest important. Si vous en avez les moyens, l‚Äôachat de la version imprim√©e ou du pdfpayant aide √† faire vivre le projet. (Aujourd‚Äôhui, parmi les lecteurs et lectrices, environ 1 sur 400 le fait ‚Äî merci du fond du c≈ìur si vous en faites partie


In [None]:
# Affiche le nombre total de chunks g√©n√©r√©s
len(chunks)

1756

### **Ajout des Chunks √† ChromaDB**

Les morceaux de texte sont maintenant convertis en embeddings et stock√©s dans la collection ChromaDB, pr√™ts pour la recherche s√©mantique.

In [None]:
# Ajoute les documents (chunks), les m√©tadonn√©es et les IDs √† la collection ChromaDB
collection.add(documents=chunks, metadatas=metadatas, ids=ids)

### **Fonctions de Recherche S√©mantique et de RAG**

Ces fonctions g√®rent la recherche des morceaux les plus pertinents dans ChromaDB (`semantic_search`), la construction du contexte √† partir de ces morceaux (`get_context_with_sources`), et l'appel au mod√®le de langage pour g√©n√©rer une r√©ponse (`rag_answer`).

In [None]:
def semantic_search(collection, query: str, n_results: int = 2):
    """Effectue une recherche s√©mantique dans la collection ChromaDB."""
    return collection.query(
        query_texts=[query], # La requ√™te de recherche
        n_results=n_results, # Nombre de r√©sultats les plus pertinents √† retourner
        include=["documents", "metadatas"] # Inclut le contenu des documents et leurs m√©tadonn√©es dans les r√©sultats
    )

def get_context_with_sources(results):
    """Extrait le contexte et les sources des r√©sultats de recherche."""
    if not results or not results.get("documents") or not results["documents"][0]:
        return "", []

    context = "\n\n".join(results["documents"][0]) # Concat√®ne les morceaux de document trouv√©s pour former le contexte

    seen = set()
    sources = []
    for meta in results["metadatas"][0]:
        label = f"{meta.get('source','?')} (chunk {meta.get('chunk','?')})" # Formate l'√©tiquette de la source
        if label not in seen:
            seen.add(label)
            sources.append(label) # Ajoute la source si elle n'a pas d√©j√† √©t√© vue

    return context, sources

def ask(collection, query: str, n_results: int = 2):
    """Fonction utilitaire pour effectuer une recherche, construire le contexte et afficher les sources."""

    results = semantic_search(collection, query, n_results=n_results)

    context, sources = get_context_with_sources(results)

    print("\n=== CONTEXT ===\n")
    print(context or "[No matching text found]")

    print("\n=== SOURCES ===")
    if sources:
        for i, s in enumerate(sources, 1):
            print(f"{i}. {s}")
    else:
        print("[No sources]")

    return context, sources

In [None]:
# Exemple de question pos√©e avec le chunking basique
query = "Quelle est un syst√®me ferm√©?"
context, sources = ask(collection, query, n_results=5) # Effectue la recherche et affiche le contexte et les sources


=== CONTEXT ===

es ùëûk√©ros√®ne= 300,2kgh‚àí1(valeur r√©a- liste). Thermodynamique de l‚Äôing√©nieur par Olivier Cleynen Chapitre 2 Les syst√®mes ferm√©s ou Petit trait√© de comptabilit√© √©nerg√©tique 32 Chapitre 2 Chapitre 2 ‚Äì Les syst√®mes ferm√©s 2.1 Pourquoi utiliser un syst√®me ferm√©? 33 2.2 Conventions de comptabilit√© 34 2.2.1 Le syst√®me ferm√© 34 2.2.2 Conventions de signe 35 2.3 Le premier principe dans un syst√®me ferm√© 35 2.4 Quanti fier le travail avec un syst√®me ferm√© 36 2.4.1 Le travail en fonction du volume, avec un

syst√®mes ferm√©s )se propose de r√©pondre √† deux questions : ‚Ä¢Comment quanti fier le travail que peut recevoir et fournir un corps de massefixe? ‚Ä¢Qu‚Äôest-ce que la r√©versibilit√©, pourquoi et comment l‚Äôatteindre? 2.1 Pourquoi utiliser un syst√®me ferm√©? √Ä partir de maintenant, nous voulons d√©crire et quanti fier les transferts d‚Äô√©nergie dans les fluides. Nous pouvons adopter deux points de vue diff√©rents pour observer le fluide :

### **Configuration de l'API OpenRouter**

Nous utilisons OpenRouter pour acc√©der √† des mod√®les de langage, en configurant la cl√© API et le nom du mod√®le.

In [None]:
from dotenv import load_dotenv # Importe load_dotenv pour charger les variables d'environnement

# Cr√©e ou √©crase un fichier .env avec une cl√© API placeholder
with open(".env", "w") as f:
    f.write('OPEN_ROUTER_API_KEY="VOTRE_CLE_ICI"') # L'utilisateur doit remplacer "VOTRE_CLE_ICI" par sa vraie cl√©

load_dotenv() # Charge les variables d'environnement depuis le fichier .env

True

In [None]:
OPEN_ROUTER_API_KEY = os.getenv("OPEN_ROUTER_API_KEY") # R√©cup√®re la cl√© API depuis les variables d'environnement
OPEN_ROUTER_MODEL_NAME = "openai/gpt-oss-120b:free" # D√©finit le nom du mod√®le OpenRouter √† utiliser

In [None]:
from openai import OpenAI # Importe la classe OpenAI

client = OpenAI(
  base_url = "https://openrouter.ai/api/v1", # D√©finit l'URL de base pour l'API OpenRouter
  api_key = OPEN_ROUTER_API_KEY, # Utilise la cl√© API configur√©e
)

In [None]:
SYSTEM_PROMPT = (
    "You are a helpful assistant for retrieval-augmented generation (RAG).\n" # R√¥le de l'assistant
    "Answer ONLY using the provided context. " # Instruction cruciale: ne r√©pondre qu'avec le contexte fourni
    "If the answer is not found in the context, say: "
    "'I don't know based on the provided documents.'" # R√©ponse si l'information n'est pas dans le contexte
)

def build_messages(context: str, question: str):
    """Construit la liste des messages pour l'API OpenAI/OpenRouter."""
    return [
        {"role": "system", "content": SYSTEM_PROMPT}, # Message syst√®me pour d√©finir le comportement de l'IA
        {"role": "user", "content": f"Context:\n{context}\n\nQuestion: {question}\nAnswer:"} # Message utilisateur incluant le contexte et la question
    ]

In [None]:
def rag_answer(collection, query: str, n_results: int = 4, model: str = OPEN_ROUTER_MODEL_NAME):
    """Ex√©cute la recherche s√©mantique, g√©n√®re une r√©ponse avec l'IA et affiche les r√©sultats."""
    results = semantic_search(collection, query, n_results) # Effectue la recherche s√©mantique
    context, sources = get_context_with_sources(results) # Extrait le contexte et les sources

    if not context.strip(): # Si aucun contexte pertinent n'est trouv√©
        print("No relevant context found.")
        return "", []

    messages = build_messages(context, query) # Construit les messages pour l'API de l'IA

    response = client.chat.completions.create(
        model=model,
        messages=messages,
        temperature=0.2, # Temp√©rature basse pour des r√©ponses plus d√©terministes
        max_tokens=512 # Limite la longueur de la r√©ponse
    )

    answer = response.choices[0].message.content.strip() # Extrait le contenu de la r√©ponse de l'IA

    print("\n=== ANSWER ===\n")
    print(answer or "[No answer generated]")

    print("\n=== SOURCES ===")
    if sources:
        for i, s in enumerate(sources, 1):
            print(f"{i}. {s}")
    else:
        print("[No sources found]")

    return answer, sources

### **Exemple de R√©ponse RAG (Chunking Basique)**

Nous posons une question et observons la r√©ponse g√©n√©r√©e avec le *chunking* basique. Notez les sources utilis√©es.

In [None]:
# Exemple de question pour tester le RAG avec le chunking basique
query = "Cycles moteur √† vapeur"
rag_answer(collection, query, n_results=2)


=== ANSWER ===

Les cycles moteur √† vapeur sont √©tudi√©s dans le chapitre‚ÄØ9 du cours ¬´‚ÄØThermodynamique de l‚Äôing√©nieur‚ÄØ¬ª afin de r√©pondre √† deux grandes questions‚ÄØ:

1. **Pourquoi et comment utilise‚Äët‚Äëon les moteurs √† vapeur aujourd‚Äôhui‚ÄØ?**  
   - Le texte rappelle que, depuis longtemps, on a tent√© d‚Äôexploiter la chaleur sur diff√©rents fluides (par exemple l‚Äôair atmosph√©rique) pour produire de la puissance motrice.  
   - Compar√© √† l‚Äôair, la vapeur d‚Äôeau pr√©sente des **avantages** (notamment en termes de capacit√© √† absorber et √† lib√©rer de la chaleur) qui justifient son emploi dans les cycles thermodynamiques industriels.

2. **Pourquoi s‚Äô√©loigne‚Äët‚Äëon des cycles id√©aux et comment quantifie‚Äët‚Äëon ces compromis‚ÄØ?**  
   - Le chapitre vise √† expliquer les raisons pour lesquelles les cycles r√©els diff√®rent des cycles id√©aux (pertes, contraintes de conception, etc.) et √† montrer comment on mesure l‚Äôimpact de ces √©carts sur la 

('Les cycles moteur √† vapeur sont √©tudi√©s dans le chapitre\u202f9 du cours ¬´\u202fThermodynamique de l‚Äôing√©nieur\u202f¬ª afin de r√©pondre √† deux grandes questions\u202f:\n\n1. **Pourquoi et comment utilise‚Äët‚Äëon les moteurs √† vapeur aujourd‚Äôhui\u202f?**  \n   - Le texte rappelle que, depuis longtemps, on a tent√© d‚Äôexploiter la chaleur sur diff√©rents fluides (par exemple l‚Äôair atmosph√©rique) pour produire de la puissance motrice.  \n   - Compar√© √† l‚Äôair, la vapeur d‚Äôeau pr√©sente des **avantages** (notamment en termes de capacit√© √† absorber et √† lib√©rer de la chaleur) qui justifient son emploi dans les cycles thermodynamiques industriels.\n\n2. **Pourquoi s‚Äô√©loigne‚Äët‚Äëon des cycles id√©aux et comment quantifie‚Äët‚Äëon ces compromis\u202f?**  \n   - Le chapitre vise √† expliquer les raisons pour lesquelles les cycles r√©els diff√®rent des cycles id√©aux (pertes, contraintes de conception, etc.) et √† montrer comment on mesure l‚Äôimpact de ces √©car

In [None]:
# Autre exemple de question avec le chunking basique
query = "cycle de Diesel?"
rag_answer(collection, query, n_results=3)


=== ANSWER ===

Le cycle de Diesel est le cycle thermodynamique utilis√© par le moteur Diesel.  
Selon le texte fourni, il se caract√©rise par‚ÄØ:

* **Un fort taux de compression**‚ÄØ: la compression de l‚Äôair est tr√®s √©lev√©e afin d‚Äôaugmenter sa temp√©rature avant la combustion.  
* **Une combustion ind√©pendante de l‚Äôadmission d‚Äôair**‚ÄØ: la combustion intervient apr√®s la compression, √† pression (ou temp√©rature) quasi‚Äëconstante, ce qui permet une qualit√© de combustion sup√©rieure √† celle du cycle d‚ÄôOtto.  
* **Un rendement l√©g√®rement inf√©rieur √† celui du cycle d‚ÄôOtto**‚ÄØ: bien que le taux de compression soit plus √©lev√©, le cycle de Diesel pr√©sente un rendement plus faible que le cycle d‚ÄôOtto en raison de la temp√©rature maximale plus √©lev√©e atteinte pendant le processus.

En r√©sum√©, le cycle de Diesel repose sur un taux de compression √©lev√© et une combustion √† pression (ou temp√©rature) quasi‚Äëconstante, offrant une meilleure qualit√© de combus

('Le cycle de Diesel est le cycle thermodynamique utilis√© par le moteur Diesel.  \nSelon le texte fourni, il se caract√©rise par\u202f:\n\n* **Un fort taux de compression**\u202f: la compression de l‚Äôair est tr√®s √©lev√©e afin d‚Äôaugmenter sa temp√©rature avant la combustion.  \n* **Une combustion ind√©pendante de l‚Äôadmission d‚Äôair**\u202f: la combustion intervient apr√®s la compression, √† pression (ou temp√©rature) quasi‚Äëconstante, ce qui permet une qualit√© de combustion sup√©rieure √† celle du cycle d‚ÄôOtto.  \n* **Un rendement l√©g√®rement inf√©rieur √† celui du cycle d‚ÄôOtto**\u202f: bien que le taux de compression soit plus √©lev√©, le cycle de Diesel pr√©sente un rendement plus faible que le cycle d‚ÄôOtto en raison de la temp√©rature maximale plus √©lev√©e atteinte pendant le processus.\n\nEn r√©sum√©, le cycle de Diesel repose sur un taux de compression √©lev√© et une combustion √† pression (ou temp√©rature) quasi‚Äëconstante, offrant une meilleure qualit√© de co

In [None]:
# Troisi√®me exemple de question avec le chunking basique
query = "Quelle est une √©volution rapide?"
rag_answer(collection, query, n_results=5)


=== ANSWER ===

Une √©volution rapide d√©signe un aller‚Äëretour effectu√© tr√®s vite, de fa√ßon non quasi‚Äëstatique. Dans ce type de processus la pression finale √† chaque trajet est plus √©lev√©e que celle qui aurait √©t√© obtenue lors d‚Äôune √©volution lente (quasi‚Äë√©quilibr√©e). En d‚Äôautres termes, la transformation se fait rapidement, de fa√ßon irr√©versible, et la pression ne suit pas les m√™mes valeurs que lors d‚Äôune √©volution lente.

=== SOURCES ===
1. thermodynamique-livre-gratuit.pdf (chunk 233)
2. thermodynamique-livre-gratuit.pdf (chunk 1065)
3. thermodynamique-livre-gratuit.pdf (chunk 218)
4. thermodynamique-livre-gratuit.pdf (chunk 505)
5. thermodynamique-livre-gratuit.pdf (chunk 1154)


('Une √©volution rapide d√©signe un aller‚Äëretour effectu√© tr√®s vite, de fa√ßon non quasi‚Äëstatique. Dans ce type de processus la pression finale √† chaque trajet est plus √©lev√©e que celle qui aurait √©t√© obtenue lors d‚Äôune √©volution lente (quasi‚Äë√©quilibr√©e). En d‚Äôautres termes, la transformation se fait rapidement, de fa√ßon irr√©versible, et la pression ne suit pas les m√™mes valeurs que lors d‚Äôune √©volution lente.',
 ['thermodynamique-livre-gratuit.pdf (chunk 233)',
  'thermodynamique-livre-gratuit.pdf (chunk 1065)',
  'thermodynamique-livre-gratuit.pdf (chunk 218)',
  'thermodynamique-livre-gratuit.pdf (chunk 505)',
  'thermodynamique-livre-gratuit.pdf (chunk 1154)'])

## **5. Optimisation du Chunking**

Le *chunking* basique peut entra√Æner des probl√®mes de coh√©rence s√©mantique :
* Coupe au milieu d‚Äôune phrase
* Peut s√©parer une d√©finition en deux parties
* Peut s√©parer une question et sa r√©ponse
* Entra√Æne une perte de coh√©rence s√©mantique

 Par cons√©quent, les embeddings sont moins pertinents et la recherche devient moins pr√©cise.

Alors, nous allons explorer deux solutions pour am√©liorer la qualit√© du d√©coupage des textes.

### **Solution 1 : Chunking bas√© sur les phrases (NLTK)**

Cette m√©thode vise √† conserver l'int√©grit√© des phrases. Nous utilisons la biblioth√®que `NLTK` pour la tokenisation des phrases, puis nous construisons des morceaux en regroupant des phrases jusqu'√† atteindre une taille maximale. Cela r√©duit le risque de couper des informations importantes au milieu d'une phrase.

### **Installation de NLTK**

In [None]:
# Installe la biblioth√®que NLTK
!pip install nltk
import nltk
nltk.download('punkt') # T√©l√©charge le tokenizer 'punkt' pour le d√©coupage de phrases
nltk.download('punkt_tab') # T√©l√©charge une version tabulaire du tokenizer (si n√©cessaire)
from nltk.tokenize import sent_tokenize # Importe la fonction de tokenization de phrases



[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


### **Fonction de Chunking par Phrases (`split_text_by_sentences`)**

In [None]:
def split_text_by_sentences(text, max_chunk_size=500):
    """D√©coupe le texte en morceaux en respectant les limites de phrases."""
    sentences = sent_tokenize(text) # D√©coupe le texte en phrases

    chunks = []
    current_chunk = ""

    for sentence in sentences:
        # Si ajouter la phrase actuelle ne d√©passe pas la taille maximale du morceau
        if len(current_chunk) + len(sentence) <= max_chunk_size:
            current_chunk += " " + sentence # Ajoute la phrase au morceau courant
        else:
            chunks.append(current_chunk.strip()) # Ajoute le morceau courant aux chunks
            current_chunk = sentence # Commence un nouveau morceau avec la phrase actuelle

    if current_chunk: # Ajoute le dernier morceau s'il n'est pas vide
        chunks.append(current_chunk.strip())

    return chunks

### **Application et V√©rification des Nouveaux Chunks**

Nous appliquons cette nouvelle m√©thode de *chunking* au texte du document.

In [None]:
# Applique le d√©coupage par phrases au texte du document
chunks = split_text_by_sentences(text)
print("Nombre de chunks :", len(chunks)) # Affiche le nombre de chunks apr√®s d√©coupage par phrases

Nombre de chunks : 1592


### **R√©initialisation et Rechargement de la Collection ChromaDB**

Pour comparer les r√©sultats, nous devons d'abord vider l'ancienne collection ChromaDB et la re-remplir avec les nouveaux chunks obtenus par la m√©thode bas√©e sur les phrases. Nous allons d'abord supprimer la collection existante si elle existe, puis la recr√©er. **Note:** Dans cet exemple, les √©tapes `ids, chunks, metadatas = process_document(file_path)` et `collection.add(...)` doivent √™tre relanc√©es avec la nouvelle fonction de chunking pour refl√©ter les changements.

In [None]:
def process_document2(file_path: str):
  """Traite un document en utilisant le chunking bas√© sur les phrases pour ChromaDB."""
  try:
        content = read_document(file_path) # Lit le contenu du document

        chunks = split_text_by_sentences(content) # Utilise la nouvelle fonction de chunking par phrases

        file_name = os.path.basename(file_path) # Extrait le nom du fichier
        metadatas = [{"source": file_name, "chunk": i} for i in range(len(chunks))] # Cr√©e les m√©tadonn√©es
        ids = [f"{file_name}_chunk_{i}" for i in range(len(chunks))] # G√©n√®re les IDs

        return ids, chunks, metadatas
  except Exception as e:
        print(f"Error processing {file_path}: {str(e)}")
        return [], [], []


In [None]:
# Traite le document avec le chunking bas√© sur les phrases
ids, chunks, metadatas = process_document2(file_path)

In [None]:
# Ajoute les nouveaux chunks (bas√©s sur les phrases) √† la collection ChromaDB. Note: cela va s'ajouter aux chunks existants si la collection n'a pas √©t√© vid√©e.
collection.add(documents=chunks, metadatas=metadatas, ids=ids)

### **Exemple de R√©ponse RAG (Chunking NLTK)**

Nous posons la m√™me question et observons la r√©ponse g√©n√©r√©e avec le *chunking* bas√© sur les phrases. Comparons la qualit√© des r√©ponses et des sources avec la m√©thode pr√©c√©dente.

In [None]:
# Pose la m√™me question avec les chunks bas√©s sur les phrases
query = "Cycles moteur √† vapeur"
rag_answer(collection, query, n_results=2)


=== ANSWER ===

Les cycles moteur √† vapeur sont √©tudi√©s dans le chapitre‚ÄØ9 afin de r√©pondre √† deux questions principales‚ÄØ:  

* **Pourquoi et comment utilise‚Äët‚Äëon des moteurs √† vapeur aujourd‚Äôhui‚ÄØ?**  
  On a, √† plusieurs reprises, tent√© de faire agir la chaleur sur l‚Äôair atmosph√©rique pour produire de la puissance motrice. Le texte indique que ce gaz (l‚Äôair) pr√©sente, par rapport √† la vapeur d‚Äôeau, √† la fois des avantages et des inconv√©nients. L‚Äôun des avantages notables de l‚Äôair, compar√© √† la vapeur, est mentionn√© d√®s le premier point (¬´‚ÄØIl pr√©sente, relativement √† la vapeur d‚Äôeau, un avantage notable‚Ä¶‚ÄØ¬ª).  

* **Pour quelles raisons s‚Äô√©loigne‚Äët‚Äëon des cycles id√©aux et comment quantifie‚Äët‚Äëon ces compromis‚ÄØ?**  
  Le chapitre vise √† expliquer les √©carts entre les cycles id√©aux et les cycles r√©els, ainsi que les m√©thodes de quantification de ces compromis.

En r√©sum√©, le ¬´‚ÄØcycles moteur √† vapeur‚ÄØ¬ª d√©signen

('Les cycles moteur √† vapeur sont √©tudi√©s dans le chapitre\u202f9 afin de r√©pondre √† deux questions principales\u202f:  \n\n* **Pourquoi et comment utilise‚Äët‚Äëon des moteurs √† vapeur aujourd‚Äôhui\u202f?**  \n  On a, √† plusieurs reprises, tent√© de faire agir la chaleur sur l‚Äôair atmosph√©rique pour produire de la puissance motrice. Le texte indique que ce gaz (l‚Äôair) pr√©sente, par rapport √† la vapeur d‚Äôeau, √† la fois des avantages et des inconv√©nients. L‚Äôun des avantages notables de l‚Äôair, compar√© √† la vapeur, est mentionn√© d√®s le premier point (¬´\u202fIl pr√©sente, relativement √† la vapeur d‚Äôeau, un avantage notable‚Ä¶\u202f¬ª).  \n\n* **Pour quelles raisons s‚Äô√©loigne‚Äët‚Äëon des cycles id√©aux et comment quantifie‚Äët‚Äëon ces compromis\u202f?**  \n  Le chapitre vise √† expliquer les √©carts entre les cycles id√©aux et les cycles r√©els, ainsi que les m√©thodes de quantification de ces compromis.\n\nEn r√©sum√©, le ¬´\u202fcycles moteur √† vapeur\

In [None]:
# Autre question avec les chunks bas√©s sur les phrases
query = "cycle de Diesel?"
rag_answer(collection, query, n_results=3)


=== ANSWER ===

Le cycle de Diesel est le cycle thermodynamique utilis√© par le moteur Diesel.  
Il se caract√©rise‚ÄØ:

* **Un fort taux de compression**‚ÄØ: le moteur comprime l‚Äôair avant l‚Äôinjection du carburant, ce qui √©l√®ve fortement la temp√©rature de l‚Äôair.  
* **Une combustion √† temp√©rature √©lev√©e**‚ÄØ: le carburant est inject√© dans l‚Äôair d√©j√† chaud et la combustion se produit √† pression (ou √† temp√©rature) quasi‚Äëconstante.  

Gr√¢ce √† ce taux de compression tr√®s √©lev√©, le cycle de Diesel offre une **qualit√© de combustion sup√©rieure** √† celle du cycle d‚ÄôOtto. Cependant, comme la temp√©rature maximale atteinte est plus √©lev√©e, le rendement du cycle de Diesel est **l√©g√®rement inf√©rieur** √† celui du cycle d‚ÄôOtto.  

En r√©sum√©, le cycle de Diesel repose sur une compression importante de l‚Äôair suivie d‚Äôune injection de carburant et d‚Äôune combustion √† pression quasi‚Äëconstante, ce qui le rend plus efficace en termes de combustion mais 

('Le cycle de Diesel est le cycle thermodynamique utilis√© par le moteur Diesel.  \nIl se caract√©rise\u202f:\n\n* **Un fort taux de compression**\u202f: le moteur comprime l‚Äôair avant l‚Äôinjection du carburant, ce qui √©l√®ve fortement la temp√©rature de l‚Äôair.  \n* **Une combustion √† temp√©rature √©lev√©e**\u202f: le carburant est inject√© dans l‚Äôair d√©j√† chaud et la combustion se produit √† pression (ou √† temp√©rature) quasi‚Äëconstante.  \n\nGr√¢ce √† ce taux de compression tr√®s √©lev√©, le cycle de Diesel offre une **qualit√© de combustion sup√©rieure** √† celle du cycle d‚ÄôOtto. Cependant, comme la temp√©rature maximale atteinte est plus √©lev√©e, le rendement du cycle de Diesel est **l√©g√®rement inf√©rieur** √† celui du cycle d‚ÄôOtto.  \n\nEn r√©sum√©, le cycle de Diesel repose sur une compression importante de l‚Äôair suivie d‚Äôune injection de carburant et d‚Äôune combustion √† pression quasi‚Äëconstante, ce qui le rend plus efficace en termes de combustion mai

In [None]:
# Troisi√®me question avec les chunks bas√©s sur les phrases
query = "Quelle est une √©volution rapide?"
rag_answer(collection, query, n_results=5)


=== ANSWER ===

Une √©volution rapide est un processus thermodynamique effectu√© tr√®s rapidement, de fa√ßon brusque. Contrairement aux √©volutions lentes o√π la pression suit toujours les m√™mes valeurs lors des allers‚Äëretours, lors d‚Äôune √©volution rapide la pression finale √† chaque trajet est plus √©lev√©e que celle qui aurait √©t√© obtenue avec un trajet lent. En d‚Äôautres termes, le changement de l‚Äô√©tat du syst√®me se fait en un temps tr√®s court, entra√Ænant des √©carts de pression (et d‚Äôautres grandeurs) par rapport aux valeurs quasi‚Äë√©quilibr√©es observ√©es lors d‚Äôune √©volution lente.

=== SOURCES ===
1. thermodynamique-livre-gratuit.pdf (chunk 233)
2. thermodynamique-livre-gratuit.pdf (chunk 1065)
3. thermodynamique-livre-gratuit.pdf (chunk 218)
4. thermodynamique-livre-gratuit.pdf (chunk 505)
5. thermodynamique-livre-gratuit.pdf (chunk 1154)


('Une √©volution rapide est un processus thermodynamique effectu√© tr√®s rapidement, de fa√ßon brusque. Contrairement aux √©volutions lentes o√π la pression suit toujours les m√™mes valeurs lors des allers‚Äëretours, lors d‚Äôune √©volution rapide la pression finale √† chaque trajet est plus √©lev√©e que celle qui aurait √©t√© obtenue avec un trajet lent. En d‚Äôautres termes, le changement de l‚Äô√©tat du syst√®me se fait en un temps tr√®s court, entra√Ænant des √©carts de pression (et d‚Äôautres grandeurs) par rapport aux valeurs quasi‚Äë√©quilibr√©es observ√©es lors d‚Äôune √©volution lente.',
 ['thermodynamique-livre-gratuit.pdf (chunk 233)',
  'thermodynamique-livre-gratuit.pdf (chunk 1065)',
  'thermodynamique-livre-gratuit.pdf (chunk 218)',
  'thermodynamique-livre-gratuit.pdf (chunk 505)',
  'thermodynamique-livre-gratuit.pdf (chunk 1154)'])

### **Solution 2 : Chunking avanc√© avec LangChain `RecursiveCharacterTextSplitter`**

LangChain est une biblioth√®que Python con√ßue pour construire des applications avec des LLM :

* RAG (Retrieval-Augmented Generation)
* Agents
* Chatbots avec m√©moire
* Pipelines LLM complexes

Dans notre cas, on l‚Äôutiliserait uniquement pour faire un meilleur d√©coupage du texte (text splitting).

**`RecursiveCharacterTextSplitter`**

 Cet outil tente de d√©couper le texte de mani√®re hi√©rarchique en utilisant une liste de s√©parateurs, ce qui permet de pr√©server au maximum la structure s√©mantique du document.

### **Installation des D√©pendances LangChain**

In [None]:
# Installe les biblioth√®ques LangChain n√©cessaires
!pip install -q langchain langchain-text-splitters

### **Application et V√©rification des Chunks avec LangChain**

Nous appliquons `RecursiveCharacterTextSplitter` au texte de notre document.

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter # Importe le d√©coupeur de texte r√©cursif de LangChain

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500, # Taille maximale souhait√©e pour chaque morceau
    chunk_overlap=50, # Chevauchement entre les morceaux pour pr√©server le contexte
    separators=["\n\n", "\n", ".", " ", ""] # Ordre des s√©parateurs √† essayer pour le d√©coupage (paragraphe, ligne, phrase, mot, caract√®re)
)

chunks = text_splitter.split_text(text) # Applique le d√©coupeur au texte complet

print("Nombre de chunks :", len(chunks))
print("Chunk 1:\n", chunks[0])

Nombre de chunks : 1544
Chunk 1:
 THERMODYNAMIQUE
DE L ‚ÄôING√âNIEUR
TROISI√àME √âDITION
OLIVIER CLEYNEN
THERMODYNAMIQUE.FR
Ce livre est gratuit.
Vous pouvez le t√©l√©charger, le lire, le partager, et m√™me le remixer : il est
publi√© sous licence CC by-sa . S‚Äôil vous est utile, pensez √† le citer ‚Äî c‚Äôest
important.
Si vous en avez les moyens, l‚Äôachat de la version
imprim√©e ou du pdfpayant aide √† faire vivre le
projet. (Aujourd‚Äôhui, parmi les lecteurs et lectrices,
environ 1 sur 400 le fait ‚Äî merci du fond du c≈ìur


### **R√©initialisation et Rechargement de la Collection ChromaDB (avec LangChain Chunks)**

Nous allons maintenant vider la collection ChromaDB et la re-remplir avec les chunks g√©n√©r√©s par LangChain.

In [None]:
def process_document3(file_path: str):
  """Traite un document en utilisant le `RecursiveCharacterTextSplitter` de LangChain pour ChromaDB."""
  try:
        content = read_document(file_path) # Lit le contenu du document

        chunks = text_splitter.split_text(content) # Utilise la fonction de chunking de LangChain

        file_name = os.path.basename(file_path) # Extrait le nom du fichier
        metadatas = [{"source": file_name, "chunk": i} for i in range(len(chunks))] # Cr√©e les m√©tadonn√©es
        ids = [f"{file_name}_chunk_{i}" for i in range(len(chunks))] # G√©n√®re les IDs

        return ids, chunks, metadatas
  except Exception as e:
        print(f"Error processing {file_path}: {str(e)}")
        return [], [], []


In [None]:
# Traite le document avec le chunking LangChain
ids, chunks, metadatas = process_document3(file_path)

In [None]:
# Ajoute les nouveaux chunks (bas√©s sur LangChain) √† la collection ChromaDB
collection.add(documents=chunks, metadatas=metadatas, ids=ids)

### **Exemple de R√©ponse RAG (Chunking LangChain)**


In [None]:
# Pose la question avec les chunks g√©n√©r√©s par LangChain
query = "Cycles moteur √† vapeur"
rag_answer(collection, query, n_results=2)


=== ANSWER ===

Le chapitre‚ÄØ9 du cours ¬´‚ÄØThermodynamique de l‚Äôing√©nieur‚ÄØ¬ª porte sur les **cycles moteur √† vapeur**.  
Il a pour but de :

* expliquer **pourquoi et comment les moteurs √† vapeur sont encore utilis√©s aujourd‚Äôhui** ;
* montrer **pour quelles raisons on s‚Äô√©loigne des cycles id√©aux** (contraintes r√©elles, pertes, rendements‚Ä¶) et **comment on quantifie ces compromis**.

Le texte introduit √©galement une comparaison entre l‚Äôutilisation de la chaleur sur l‚Äôair atmosph√©rique et sur la vapeur d‚Äôeau, en soulignant que l‚Äôair pr√©sente, par rapport √† la vapeur, des **avantages et des inconv√©nients** qui seront √©tudi√©s plus loin.

=== SOURCES ===
1. thermodynamique-livre-gratuit.pdf (chunk 1205)
2. thermodynamique-livre-gratuit.pdf (chunk 1206)


('Le chapitre\u202f9 du cours ¬´\u202fThermodynamique de l‚Äôing√©nieur\u202f¬ª porte sur les **cycles moteur √† vapeur**.  \nIl a pour but de :\n\n* expliquer **pourquoi et comment les moteurs √† vapeur sont encore utilis√©s aujourd‚Äôhui** ;\n* montrer **pour quelles raisons on s‚Äô√©loigne des cycles id√©aux** (contraintes r√©elles, pertes, rendements‚Ä¶) et **comment on quantifie ces compromis**.\n\nLe texte introduit √©galement une comparaison entre l‚Äôutilisation de la chaleur sur l‚Äôair atmosph√©rique et sur la vapeur d‚Äôeau, en soulignant que l‚Äôair pr√©sente, par rapport √† la vapeur, des **avantages et des inconv√©nients** qui seront √©tudi√©s plus loin.',
 ['thermodynamique-livre-gratuit.pdf (chunk 1205)',
  'thermodynamique-livre-gratuit.pdf (chunk 1206)'])

In [None]:
# Autre question avec les chunks g√©n√©r√©s par LangChain
query = "cycle de Diesel?"
rag_answer(collection, query, n_results=3)


=== ANSWER ===

Le cycle de Diesel est le cycle thermodynamique utilis√© par le moteur Diesel.  
Il se caract√©rise‚ÄØ:

* **Un fort taux de compression**‚ÄØ: l‚Äôair est fortement comprim√© avant l‚Äôinjection du carburant, ce qui √©l√®ve fortement sa temp√©rature.  
* **Une combustion √† pression (ou √† temp√©rature) constante**‚ÄØ: le carburant est inject√© dans l‚Äôair chaud et s‚Äôenflamme spontan√©ment, la combustion se d√©roulant √† pression (ou temp√©rature) pratiquement constante.  
* **Une admission d‚Äôair uniquement**‚ÄØ: le moteur ne re√ßoit que de l‚Äôair, le carburant √©tant ajout√© apr√®s la compression.  

Ces propri√©t√©s donnent au cycle de Diesel un taux de compression et une qualit√© de combustion sup√©rieurs √† ceux du cycle d‚ÄôOtto, m√™me si son rendement thermique est l√©g√®rement inf√©rieur lorsqu‚Äôon compare les temp√©ratures maximales atteintes.  

En r√©sum√©, le cycle de Diesel repose sur une compression √©lev√©e de l‚Äôair suivie d‚Äôune injection et d‚

('Le cycle de Diesel est le cycle thermodynamique utilis√© par le moteur Diesel.  \nIl se caract√©rise\u202f:\n\n* **Un fort taux de compression**\u202f: l‚Äôair est fortement comprim√© avant l‚Äôinjection du carburant, ce qui √©l√®ve fortement sa temp√©rature.  \n* **Une combustion √† pression (ou √† temp√©rature) constante**\u202f: le carburant est inject√© dans l‚Äôair chaud et s‚Äôenflamme spontan√©ment, la combustion se d√©roulant √† pression (ou temp√©rature) pratiquement constante.  \n* **Une admission d‚Äôair uniquement**\u202f: le moteur ne re√ßoit que de l‚Äôair, le carburant √©tant ajout√© apr√®s la compression.  \n\nCes propri√©t√©s donnent au cycle de Diesel un taux de compression et une qualit√© de combustion sup√©rieurs √† ceux du cycle d‚ÄôOtto, m√™me si son rendement thermique est l√©g√®rement inf√©rieur lorsqu‚Äôon compare les temp√©ratures maximales atteintes.  \n\nEn r√©sum√©, le cycle de Diesel repose sur une compression √©lev√©e de l‚Äôair suivie d‚Äôune injection

In [None]:
# Troisi√®me question avec les chunks g√©n√©r√©s par LangChain
query = "Quelle est une √©volution rapide?"
rag_answer(collection, query, n_results=5)


=== ANSWER ===

Une ¬´‚ÄØ√©volution rapide‚ÄØ¬ª d√©signe un processus thermodynamique effectu√© tr√®s rapidement, de fa√ßon brusque. Contrairement aux allers‚Äëretours lents o√π la pression suit toujours les m√™mes valeurs, lors d‚Äôune √©volution rapide la pression finale √† chaque trajet est plus √©lev√©e que celle qui aurait √©t√© obtenue dans un trajet lent. En d‚Äôautres termes, le changement se fait de fa√ßon tr√®s rapide, entra√Ænant des √©carts de pression et un caract√®re irr√©versible du processus.

=== SOURCES ===
1. thermodynamique-livre-gratuit.pdf (chunk 233)
2. thermodynamique-livre-gratuit.pdf (chunk 1065)
3. thermodynamique-livre-gratuit.pdf (chunk 218)
4. thermodynamique-livre-gratuit.pdf (chunk 505)
5. thermodynamique-livre-gratuit.pdf (chunk 1154)


('Une ¬´\u202f√©volution rapide\u202f¬ª d√©signe un processus thermodynamique effectu√© tr√®s rapidement, de fa√ßon brusque. Contrairement aux allers‚Äëretours lents o√π la pression suit toujours les m√™mes valeurs, lors d‚Äôune √©volution rapide la pression finale √† chaque trajet est plus √©lev√©e que celle qui aurait √©t√© obtenue dans un trajet lent. En d‚Äôautres termes, le changement se fait de fa√ßon tr√®s rapide, entra√Ænant des √©carts de pression et un caract√®re irr√©versible du processus.',
 ['thermodynamique-livre-gratuit.pdf (chunk 233)',
  'thermodynamique-livre-gratuit.pdf (chunk 1065)',
  'thermodynamique-livre-gratuit.pdf (chunk 218)',
  'thermodynamique-livre-gratuit.pdf (chunk 505)',
  'thermodynamique-livre-gratuit.pdf (chunk 1154)'])

## **Conclusion : L'Importance du Chunking**

√Ä travers ces exemples, nous avons pu observer comment diff√©rentes strat√©gies de *chunking* peuvent influencer la qualit√© des r√©ponses d'un syst√®me RAG. Un d√©coupage intelligent du texte, qui respecte la coh√©rence s√©mantique, est crucial pour obtenir des embeddings plus pertinents et, par cons√©quent, des recherches plus pr√©cises et des r√©ponses plus fid√®les aux documents sources.

Le `RecursiveCharacterTextSplitter` de LangChain, avec sa strat√©gie hi√©rarchique de d√©coupage, offre souvent les meilleurs r√©sultats en √©quilibrant la taille des *chunks* et la pr√©servation du contexte s√©mantique. Cela d√©montre que l'ing√©nierie du *chunking* est une √©tape fondamentale pour construire des applications RAG performantes et fiables.