![LangChain](img/langchain.jpeg)

Les syst√®mes **RAG (Retrieval-Augmented Generation)** dans LangChain permettent aux mod√®les de langage de s‚Äôappuyer sur des **connaissances externes** pour produire des r√©ponses plus pr√©cises, actualis√©es et pertinentes.

Contrairement √† un simple LLM qui g√©n√®re une r√©ponse uniquement √† partir de ce qu‚Äôil a appris pendant son entra√Ænement, un syst√®me RAG interroge une base de documents pour retrouver des morceaux d‚Äôinformation pertinents ‚Äì appel√©s **chunks** ‚Äì et les injecte dans le prompt du LLM.

![RAG](img/rag.jpeg)

**Que montre le sch√©ma ci-dessus ?**

Le processus se divise en **deux grandes phases** : **pr√©paration des documents** et **traitement des requ√™tes**.

**Pr√©paration des documents (√† gauche)**
- (1) Un fichier (document source) est divis√© en **chunks**, c‚Äôest-√†-dire en petits segments de texte.
- (2) Chaque chunk est pass√© dans un LLM Embedder, un encodeur qui transforme le texte en un vecteur num√©rique (**embeddings**).
- (3) Ces vecteurs sont ensuite stock√©s dans un Vector Store, une base de donn√©es sp√©cialis√©e pour les recherches par **similarit√© s√©mantique**.

**Traitement des requ√™tes (√† droite)**
- (a) Lorsqu‚Äôun utilisateur emet une requ√™te, celle-ci est √† son tour encod√©e via **le m√™me LLM Embedder** pour obtenir son vecteur.
- (b) Ce vecteur est utilis√© par le **Retriever**, qui compare la requ√™te aux vecteurs des **chunks** pour trouver les plus similaires.
- (c) Les chunks retrouv√©s sont envoy√©s au LLM, qui les utilise comme contexte pour formuler une r√©ponse.


En r√©sum√©, ce fonctionnement est illustr√© par la boucle :

> Requ√™te ‚Üí Encodage ‚Üí Recherche dans la base vectorielle ‚Üí R√©cup√©ration des chunks ‚Üí Passage au LLM ‚Üí R√©ponse contextuelle


# 1. Chargement du mod√®le
___

## LLM local :

Dans cette section, nous chargeons un mod√®le de langage local gr√¢ce √† **Ollama**. Cela permet de travailler avec un **LLM directement sur notre machine**, sans connexion √† une API externe.

Nous utilisons ici la classe `ChatOllama` de **LangChain**, qui nous permet d‚Äôinteragir facilement avec un mod√®le comme llama3 d√©j√† t√©l√©charg√© via Ollama.

GTP-OSS:20b, Mistral-Small3.2 24B GLM 4.7 Flash

## LLM Cloud :
Mistral

In [None]:
import os
from IPython.display import display, Markdown, clear_output
from dotenv import load_dotenv
from langchain_ollama import ChatOllama, OllamaEmbeddings
from langchain_core.messages import HumanMessage, AIMessage
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_core.runnables import RunnablePassthrough
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import TextLoader
from langchain_chroma import Chroma  # ‚úÖ LangChain v1 : pip install langchain-chroma

from langchain_mistralai.chat_models import ChatMistralAI

# Chargement des cl√©s d'API se trouvant dans le fichier .env.
# Ceci permet d'utiliser des mod√®les en ligne comme gpt-x, deepseek-x, etc...
load_dotenv(override=True)

model = ChatOllama(model="glm-4.7-flash")

#model = ChatMistralAI(model="mistral-large-latest", api_key=os.getenv("MISTRAL_API_KEY"))

# Mod√®le sp√©cialis√© pour convertir du texte en vecteurs (https://ollama.com/library/nomic-embed-text).
# Il existe d'autres mod√®les d'embeddings (comme "all-MiniLM-L6-v2", "text-embedding-ada-002", etc.)
# avec des performances et dimensions vari√©es selon les cas d'usage (recherche s√©mantique, classification, etc.).
embedder = OllamaEmbeddings(model="nomic-embed-text")

# 2. RAG standard
___

Le **RAG standard** consiste √† :
- formuler une requ√™te explicite
- interroger une base de documents vectoris√©e
- utiliser un mod√®le LLM pour g√©n√©rer une r√©ponse √† partir des r√©sultats retrouv√©s.

Ce pipeline est **efficace pour des questions ind√©pendantes, sans contexte conversationnel**.

### 2.1 Pr√©paration des documents

Nous initialisons les chemins n√©cessaires √† la pr√©paration des documents d‚Äôentr√©e.

In [3]:
# R√©cup√®re le chemin absolu du r√©pertoire courant (l√† o√π le script est ex√©cut√©)
current_dir = os.getcwd()

# Nom du fichier texte contenant les comptes rendus de r√©union
file_name = "meeting_reports.txt"

# Construit le chemin complet vers le fichier texte dans le dossier "data"
file_path = os.path.join(current_dir, "data", file_name)

# D√©finit le chemin du r√©pertoire o√π sera stock√©e la base de donn√©es vectorielle (Chroma DB)
db_dir = os.path.join(current_dir, "data", "db")

### 2.2 Initialisation du vector store

Nous v√©rifions ici si la base vectorielle existe d√©j√†.
Si ce n‚Äôest pas le cas, le fichier source est charg√©, d√©coup√© en morceaux, enrichi de m√©tadonn√©es, puis index√© dans Chroma DB.

In [4]:
if not os.path.exists(db_dir):
    print("Initializing vector store...")

    # Chargement du fichier texte brut contenant les documents
    loader = TextLoader(file_path)
    loaded_document = loader.load()

    # D√©coupage du document en chunks de 1000 caract√®res avec un chevauchement de 0
    # - chunk_size d√©termine la taille maximale de chaque morceau (en nombre de caract√®res ici : 1000)
    # - chunk_overlap permet de conserver un chevauchement entre les morceaux pour √©viter les coupures abruptes, ici il est √† 0, donc sans recouvrement.
    # - RecursiveCharacterTextSplitter est souvent pr√©f√©r√© en pratique pour des documents textuels comme des comptes rendus,
    #   des articles ou de la documentation technique, car il garde mieux le contexte s√©mantique.
    #   Ce splitter tente d'abord de d√©couper sur les sauts de ligne, puis sur les phrases, puis sur les mots, etc.
    # ... d'autres Text Splitter comme CharachterTextSplitter existent. √Ä approfondir si besoin
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
    chunks = text_splitter.split_documents(loaded_document)

    # Ajout de m√©tadonn√©es √† chaque chunk (utile pour le filtrage ou le suivi de provenance).
    # Ici 2 metadata sont ajout√©s mais il pourrait en y avoir plus.
    for chunk in chunks:
        chunk.metadata["source"] = file_path    # Chemin d'origine du document
        chunk.metadata["category"] = "meeting"  # Cat√©gorie de contenu (√† adapter selon les besoins)

    # Cr√©ation et persistance de la base vectorielle dans le dossier d√©fini
    db = Chroma.from_documents(chunks, embedder, persist_directory=db_dir)

    print("Vector store created !")

### 2.3 Initialisation du moteur de recherche vectorielle

Une fois la base vectorielle Chroma initialis√©e avec les embeddings, nous la transformons en **moteur de recherche (retriever)**.
Cela permet de retrouver les documents les plus proches s√©mantiquement d‚Äôune question ou d‚Äôune requ√™te.

In [5]:
# Chargement de la base vectorielle existante, avec liaison avec le m√™me embedder ayant servi pour cr√©er la base vectorielle
db = Chroma(persist_directory=db_dir, embedding_function=embedder)

# Conversion de la base Chroma en "retriever" pour effectuer des recherches par similarit√©
# - search_type="similarity" utilise la distance cosinus entre les vecteurs
# - "k": 3 signifie que l'on souhaite r√©cup√©rer les 3 documents les plus proches
retriever = db.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 3}
)

# üí° Il est aussi possible d‚Äôutiliser d‚Äôautres types de recherche (search_type) :
# - "mmr" (Maximal Marginal Relevance) : √©quilibre entre pertinence et diversit√© des r√©sultats
# - "similarity_score_threshold" : retourne uniquement les documents dont le score d√©passe un certain seuil
#      search_kwargs={"score_threshold": 0.8} permet par exemple de filtrer les r√©sultats peu pertinents
#
# D‚Äôautres param√®tres utiles dans search_kwargs :
# - "fetch_k" : nombre de documents √† r√©cup√©rer avant le tri final (utile avec MMR)
# - "lambda_mult" : pond√©ration entre pertinence et diversit√© dans MMR
#
# Etc... √† approfondir si besoin

  db = Chroma(persist_directory=db_dir, embedding_function=embedder)


### 2.4 Ex√©cution d‚Äôune requ√™te de recherche

Dans cette √©tape, nous combinons la recherche vectorielle avec un LLM via une cha√Æne LCEL (LangChain Expression Language).

Le pipeline est compos√© de 4 √©tapes encha√Æn√©es avec l'op√©rateur `|` :
1. **R√©cup√©ration** : le retriever cherche les chunks pertinents et une fonction les formate en texte
2. **Prompt** : le contexte r√©cup√©r√© et la question sont inject√©s dans un template structur√©
3. **LLM** : le mod√®le g√©n√®re une r√©ponse √† partir du prompt enrichi
4. **Parser** : la sortie brute du mod√®le est convertie en cha√Æne de caract√®res simple

Cette approche remplace le passage manuel des messages et garantit que le mod√®le r√©pond **uniquement √† partir des documents fournis**.

In [None]:
# Requ√™te pos√©e par l'utilisateur
query = "Quels sont les r√©unions concernant la soci√©t√© Neolink ?"

# Optionnel : affichage manuel des chunks retrouv√©s (utile pour debug ou v√©rification)
# relevant_chunks = retriever.invoke(query)
# for i, chunk in enumerate(relevant_chunks, 1):
#     print(f"Chunk {i}:\n{chunk.page_content}\n")

# Fonction utilitaire pour formater les documents r√©cup√©r√©s en un seul bloc de texte
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

# Template du prompt : le contexte r√©cup√©r√© et la question sont inject√©s dynamiquement
prompt = ChatPromptTemplate.from_messages([
    ("system",
     "Tu es un assistant qui aide √† retrouver tout type d'informations interne √† une entreprise. "
     "R√©ponds uniquement en te basant sur les documents fournis. "
     "Si l'information n'est pas dans les documents, dis-le clairement."),
    ("human", "Documents pertinents :\n\n{context}\n\nQuestion : {question}")
])

# Construction de la cha√Æne RAG avec LCEL :
# 1. retriever | format_docs : r√©cup√®re les chunks et les formate en texte
# 2. RunnablePassthrough() : laisse passer la question telle quelle vers le prompt
# 3. prompt : injecte contexte + question dans le template
# 4. model : g√©n√®re la r√©ponse
# 5. StrOutputParser() : extrait le texte de la r√©ponse (plus besoin de .content)
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | model
    | StrOutputParser()
)

# Ex√©cution de la cha√Æne
result = rag_chain.invoke(query)

display(Markdown(result))

### üß© Exercice

La soci√©t√© NovTech g√®re de nombreux documents internes :
- des rapports d‚Äôincidents (panne, erreur technique, post-mortem),
- des proc√©dures op√©rationnelles (onboarding, acc√®s syst√®me, d√©ploiement‚Ä¶).

Actuellement, les √©quipes perdent du temps √† chercher les bonnes informations √† travers des fichiers √©parpill√©s.

Votre objectif est de construire un assistant bas√© sur l'architecture RAG qui permettra :
- de retrouver rapidement les proc√©dures en cas de besoin,
- de consulter les r√©solutions d‚Äôincidents similaires,
- de r√©pondre √† des questions en langage naturel en s‚Äôappuyant uniquement sur les documents internes.

Pour vous aider, vous pouvez suivre les √©tapes suivantes :
1. Chargement des documents
2. D√©coupage en chunks
3. Indexation vectorielle
4. Recherche contextuelle
5. G√©n√©ration de r√©ponse

‚ÑπÔ∏è Les documents de l'entreprise se trouve dans le dossier `data/novtech`.
üí™üèª **Bonus** : Rendre possible un filtrage par cat√©gorie dans les recherches

In [7]:
# Votre code ici

# 3. RAG conversationnel
___

Dans un cadre d'**interaction continue**, les utilisateurs posent souvent des questions implicites ou r√©f√©rentielles (ex. "Et lui ?"). Le **RAG conversationnel** ajoute une √©tape cl√© : la **reformulation de la question en prenant en compte l'historique du dialogue**.

Cette version de RAG permet de maintenir la pertinence des recherches dans la base vectorielle tout en conservant la fluidit√© de la conversation, ce qui la rend adapt√©e aux assistants IA ou aux chatbots avanc√©s.

**Exemple**

Historique de la conversation :
- Utilisateur : *Qui est le CEO de Tesla ?*
- IA : *Elon Musk est le CEO de Tesla*.
- Utilisateur : *Et de SpaceX ?*

‚û°Ô∏è La question "Et de SpaceX ?" est ambigu√´ seule. Le moteur de recherche (retriever) ne sait pas de quoi il s'agit exactement.

Avec une reformulation de la question de l'utilisateur cela donnerait : "Qui est le CEO de SpaceX ?"

‚û°Ô∏è R√©sultat : la requ√™te est claire, et la recherche dans la base vectorielle peut retourner les bons documents.

**üëç Approche LCEL avec historique explicite**

On √©tend la cha√Æne RAG standard en lui passant un `chat_history` (liste de `HumanMessage` / `AIMessage`) via un `MessagesPlaceholder`.
√Ä chaque tour, le mod√®le dispose √† la fois du contexte documentaire r√©cup√©r√© **et** de l'historique de la conversation, ce qui lui permet de reformuler et de r√©pondre de fa√ßon coh√©rente.

La gestion de la m√©moire reste sous le contr√¥le du d√©veloppeur : simple liste Python mise √† jour apr√®s chaque √©change.

> üí° Pour aller plus loin avec une m√©moire persistante multi-sessions, voir la **section 4** de ce notebook.

In [None]:
# Prompt avec historique de conversation int√©gr√© via MessagesPlaceholder
# Le mod√®le re√ßoit : le contexte documentaire + l'historique + la nouvelle question
prompt_conv = ChatPromptTemplate.from_messages([
    ("system",
     "Tu es un assistant qui aide √† retrouver tout type d'informations interne √† une entreprise. "
     "R√©ponds uniquement en te basant sur les documents fournis. "
     "Si l'information n'est pas dans les documents, dis-le clairement."),
    MessagesPlaceholder(variable_name="chat_history"),
    ("human", "Documents pertinents :\n\n{context}\n\nQuestion : {question}")
])

# Cha√Æne RAG conversationnelle avec LCEL
# Le retriever est appel√© avec la question courante √† chaque tour
conversational_rag_chain = (
    {
        "context": lambda x: "\n\n".join(doc.page_content for doc in retriever.invoke(x["question"])),
        "question": lambda x: x["question"],
        "chat_history": lambda x: x["chat_history"]
    }
    | prompt_conv
    | model
    | StrOutputParser()
)

# Historique de conversation (liste de HumanMessage / AIMessage)
chat_history = []

# Boucle de chat
# ‚ö†Ô∏è Changer `while False:` en `while True:` pour activer l'exemple
while False:
    user_input = input("Vous : ")
    clear_output(wait=True)
    display(Markdown(f"**Vous :** {user_input}"))

    if user_input.lower() in ["stop", "exit", "quit"]:
        print("Fin de la conversation.")
        break

    result = conversational_rag_chain.invoke({
        "question": user_input,
        "chat_history": chat_history
    })

    display(Markdown(result))

    # Mise √† jour de l'historique pour le prochain tour
    chat_history.append(HumanMessage(content=user_input))
    chat_history.append(AIMessage(content=result))

### üß© Exercice

Repartez de l'exercice pr√©c√©dent (NovTech), et impl√©mentez un assistant de conversation continue.

In [None]:
# Votre code ici

# 4. RAG avec m√©moire persistante (LangGraph)
___

**LangGraph** est le framework d'orchestration de LangChain pour construire des applications **stateful** (avec √©tat persistant). L√† o√π la section 3 g√®re l'historique de conversation manuellement via une liste Python, LangGraph prend en charge cette m√©moire de fa√ßon **automatique, persistante et multi-sessions**.

Dans cette section, nous allons enrichir le RAG conversationnel avec :
- un **agent** capable de d√©cider dynamiquement quand consulter la base documentaire,
- une **m√©moire persistante** (`MemorySaver`) isol√©e par session via un `thread_id`,
- la possibilit√© de g√©rer **plusieurs conversations en parall√®le** sans collision d'historique.

### Pourquoi LangGraph ?

Dans la section 3, l'historique est une liste Python g√©r√©e manuellement :
```python
chat_history.append(HumanMessage(...))
chat_history.append(AIMessage(...))
```
C'est suffisant pour une session simple, mais cette approche a des limites :
- L'historique **dispara√Æt** √† la fin du processus,
- Impossible de g√©rer **plusieurs sessions en parall√®le** sans collision,
- Pas de possibilit√© de **reprendre** une conversation interrompue.

LangGraph r√©sout ces probl√®mes avec `MemorySaver` et le concept de `thread_id`.

In [None]:
from langchain.agents import create_agent
from langchain.tools import tool
from langgraph.checkpoint.memory import MemorySaver

### 4.1 D√©finition de l'outil de retrieval

L'outil est une fonction d√©cor√©e avec `@tool` que l'agent peut appeler dynamiquement.
Le d√©corateur `response_format="content_and_artifact"` permet de retourner √† la fois
le texte format√© (utilis√© dans le prompt) et les documents bruts (pour le debug).

In [None]:
@tool(response_format="content_and_artifact")
def retrieve(query: str):
    """Recherche des informations dans la base de documents internes de l'entreprise."""
    retrieved_docs = retriever.invoke(query)
    serialized = "\n\n".join(
        f"Source : {doc.metadata.get('source', 'inconnue')}\nContenu : {doc.page_content}"
        for doc in retrieved_docs
    )
    return serialized, retrieved_docs

### 4.2 Cr√©ation de l'agent avec m√©moire persistante

`MemorySaver` est un checkpoint en m√©moire vive fourni par LangGraph.
Il associe automatiquement chaque √©change √† un `thread_id` : deux conversations
avec des `thread_id` diff√©rents ont des historiques totalement s√©par√©s.

In [None]:
# M√©moire persistante : chaque session identifi√©e par son thread_id a son propre historique
memory = MemorySaver()

# L'agent d√©cide dynamiquement √† chaque tour s'il doit appeler l'outil de recherche
agent = create_agent(
    model,
    tools=[retrieve],
    system_prompt=(
        "Tu es un assistant qui aide √† retrouver tout type d'informations interne √† une entreprise. "
        "Utilise l'outil de recherche pour trouver des informations pertinentes avant de r√©pondre. "
        "Si l'information n'est pas dans les documents, dis-le clairement."
    ),
    checkpointer=memory
)

### 4.3 Conversation avec gestion du thread_id

Le `thread_id` identifie la session. Pour d√©marrer une **nouvelle conversation**
sans historique, changez simplement la valeur de `thread_id`.

Deux threads peuvent tourner en parall√®le sans interf√©rence.

In [None]:
# Identifiant de session ‚Äî changer la valeur pour d√©marrer une nouvelle conversation
config = {"configurable": {"thread_id": "session_1"}}

# Boucle de chat
# ‚ö†Ô∏è Changer `while False:` en `while True:` pour activer l'exemple
while False:
    user_input = input("Vous : ")
    clear_output(wait=True)
    display(Markdown(f"**Vous :** {user_input}"))

    if user_input.lower() in ["stop", "exit", "quit"]:
        print("Fin de la conversation.")
        break

    # L'agent g√®re automatiquement : retrieval, historique, g√©n√©ration
    response = agent.invoke(
        {"messages": [{"role": "user", "content": user_input}]},
        config=config
    )

    display(Markdown(response["messages"][-1].content))

### 4.4 Sessions multiples en parall√®le

Avec un seul agent et `MemorySaver`, on peut simuler deux utilisateurs distincts
dont les historiques ne se m√©langent pas.

In [None]:
# Session utilisateur A
config_a = {"configurable": {"thread_id": "utilisateur_A"}}
# Session utilisateur B
config_b = {"configurable": {"thread_id": "utilisateur_B"}}

# Utilisateur A pose une premi√®re question
response_a1 = agent.invoke(
    {"messages": [{"role": "user", "content": "Quelles r√©unions concernent Neolink ?"}]},
    config=config_a
)
print("[Session A ‚Äî Tour 1]")
display(Markdown(response_a1["messages"][-1].content))

# Utilisateur B pose une question ind√©pendante
response_b1 = agent.invoke(
    {"messages": [{"role": "user", "content": "Quelles sont les d√©cisions prises en janvier ?"}]},
    config=config_b
)
print("\n[Session B ‚Äî Tour 1]")
display(Markdown(response_b1["messages"][-1].content))

# Utilisateur A pose une question de suivi ‚Äî l'agent se souvient du contexte A
response_a2 = agent.invoke(
    {"messages": [{"role": "user", "content": "Et les participants √† ces r√©unions ?"}]},
    config=config_a
)
print("\n[Session A ‚Äî Tour 2 (question de suivi)]")
display(Markdown(response_a2["messages"][-1].content))

### üß© Exercice

Reprenez les documents NovTech (incidents et proc√©dures) d√©j√† utilis√©s dans les sections pr√©c√©dentes.

1. Cr√©ez un outil `@tool` de retrieval pointant sur la base NovTech.
2. Construisez un agent avec `create_agent` + `MemorySaver`.
3. Simulez **deux sessions utilisateur** (`thread_id` diff√©rents) posant des questions sur des incidents.
4. V√©rifiez que les contextes ne se m√©langent pas entre les sessions.

üí™üèª **Bonus** : Ajoutez un second outil `retrieve_by_category(query, category)` qui filtre les r√©sultats par cat√©gorie (`incidents` ou `procedures`) en utilisant les m√©tadonn√©es Chroma.

In [None]:
# Votre code ici