# Prendre en main LangChain pas √† pas

Objectif de ce notebook :  
- Comprendre les **briques de base** de LangChain (LLM, prompt, chain).  
- Visualiser un **sch√©ma simple** de pipeline.  
- Construire un mini **pipeline de question/r√©ponse**, puis un mini **pipeline RAG simplifi√©**.

> Remarque : ce notebook suppose que vous avez une cl√© API (`OPENAI_API_KEY`) d√©finie dans vos variables d‚Äôenvironnement.

## Les briques de base de LangChain

On va manipuler 3 briques principales :

1. **LLM** : le mod√®le de langage (par ex. `gpt-4o-mini`)  
2. **Prompt** : la mani√®re dont on parle au mod√®le (system + user + variables)  
3. **Chain** : l‚Äôassemblage **d√©claratif** des √©tapes (pipeline de traitement)

On peut imaginer ce sch√©ma tr√®s simple :

```text
              +---------------------------+
User input -> |   PromptTemplate          | -> texte format√©
              +---------------------------+
                           |
                           v
                     +-----------+
                     |   LLM     | -> r√©ponse brute du mod√®le
                     +-----------+
                           |
                           v
                   +------------------+
                   | Output Parser    | -> string / JSON / etc.
                   +------------------+
```  
LangChain permet de **d√©crire ce pipeline en Python**, plut√¥t que de tout reprogrammer √† la main.

## üîß Installation (√† faire une fois dans votre environnement)

D√©commentez et ex√©cutez la cellule ci-dessous si besoin.

In [None]:
# !pip install -U langchain-core langchain-openai
# Optionnel : outils suppl√©mentaires
# !pip install -U langchain-text-splitters

## ‚öôÔ∏è Initialisation du LLM

On cr√©e un objet `ChatOpenAI` qui est la brique "mod√®le de langage" c√¥t√© LangChain.

In [None]:
import os
from langchain_openai import ChatOpenAI
from getpass import getpass

# IMPORTANT: Configurez votre cl√© API OpenAI dans vos variables d'environnement
# Vous pouvez les d√©finir via un fichier .env ou en les exportant dans votre shell:
# export OPENAI_API_KEY="your-key-here"
# Ou utilisez getpass pour la saisir de mani√®re s√©curis√©e:
# os.environ["OPENAI_API_KEY"] = getpass("Entrez votre cl√© API OpenAI: ")

# V√©rification que la cl√© est d√©finie
if "OPENAI_API_KEY" not in os.environ:
    raise ValueError("OPENAI_API_KEY doit √™tre d√©finie dans vos variables d'environnement. "
                     "Voir le README.md pour les instructions de configuration.")

model = ChatOpenAI(
    model="gpt-4o-mini",  
    temperature=0.2,
)
model

ChatOpenAI(client=<openai.resources.chat.completions.completions.Completions object at 0x10c58b9a0>, async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x10c58bf10>, root_client=<openai.OpenAI object at 0x10c589600>, root_async_client=<openai.AsyncOpenAI object at 0x10c58ab00>, model_name='gpt-4o-mini', temperature=0.2, model_kwargs={}, openai_api_key=SecretStr('**********'))

## 1Ô∏è‚É£ Premier appel au LLM via LangChain

On commence par l‚Äôusage le plus simple : on envoie une liste de messages au mod√®le.

In [20]:
from langchain_core.messages import HumanMessage, SystemMessage

messages = [
    SystemMessage(content="Tu es un assistant p√©dagogique, clair et concis."),
    HumanMessage(content="Explique en deux phrases ce qu'est un mod√®le de langage."),
]

response = model.invoke(messages)
print(response.content)

Un mod√®le de langage est un syst√®me informatique con√ßu pour comprendre et g√©n√©rer du texte en se basant sur des donn√©es linguistiques. Il utilise des algorithmes d'apprentissage automatique pour pr√©dire la probabilit√© des mots ou des phrases dans un contexte donn√©.


## 2Ô∏è‚É£ S√©parer le **prompt** et le **mod√®le**

Plut√¥t que de construire les messages √† la main, on d√©crit un **template de conversation**.

On utilise `ChatPromptTemplate` pour d√©finir :
- le r√¥le syst√®me (persona),
- le message utilisateur avec une **variable `{question}`**.

In [21]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", f"Tu es un assistant IA qui vulgarise pour un public de d√©veloppeurs curieux."),
        ("human", "Question : {question}"),
    ]
)


# LCEL: LangChain Expression Language
chain = prompt | model 

answer = chain.invoke({"question": "Quelle est la diff√©rence entre un LLM et LangChain ?"})
print(answer)



content="Un LLM (Large Language Model) et LangChain sont deux concepts diff√©rents, mais ils peuvent travailler ensemble dans le domaine du traitement du langage naturel.\n\n### LLM (Large Language Model)\nUn LLM est un mod√®le d'intelligence artificielle entra√Æn√© sur de vastes ensembles de donn√©es textuelles. Ces mod√®les, comme GPT-3 ou GPT-4, sont capables de comprendre et de g√©n√©rer du texte de mani√®re coh√©rente. Ils peuvent √™tre utilis√©s pour diverses t√¢ches, telles que :\n\n- La g√©n√©ration de texte\n- La traduction\n- La r√©ponse √† des questions\n- La r√©daction de contenu\n\nLes LLMs fonctionnent en pr√©disant le mot suivant dans une phrase, en se basant sur le contexte fourni par les mots pr√©c√©dents.\n\n### LangChain\nLangChain, en revanche, est une biblioth√®que con√ßue pour faciliter l'int√©gration et l'utilisation des LLMs dans des applications plus complexes. Elle permet de cr√©er des cha√Ænes de traitement de texte qui combinent plusieurs √©tapes, comme :\n\

In [22]:
parser = StrOutputParser()

parser.invoke(answer)

"Un LLM (Large Language Model) et LangChain sont deux concepts diff√©rents, mais ils peuvent travailler ensemble dans le domaine du traitement du langage naturel.\n\n### LLM (Large Language Model)\nUn LLM est un mod√®le d'intelligence artificielle entra√Æn√© sur de vastes ensembles de donn√©es textuelles. Ces mod√®les, comme GPT-3 ou GPT-4, sont capables de comprendre et de g√©n√©rer du texte de mani√®re coh√©rente. Ils peuvent √™tre utilis√©s pour diverses t√¢ches, telles que :\n\n- La g√©n√©ration de texte\n- La traduction\n- La r√©ponse √† des questions\n- La r√©daction de contenu\n\nLes LLMs fonctionnent en pr√©disant le mot suivant dans une phrase, en se basant sur le contexte fourni par les mots pr√©c√©dents.\n\n### LangChain\nLangChain, en revanche, est une biblioth√®que con√ßue pour faciliter l'int√©gration et l'utilisation des LLMs dans des applications plus complexes. Elle permet de cr√©er des cha√Ænes de traitement de texte qui combinent plusieurs √©tapes, comme :\n\n- L'int

üëâ Ici, on vient d‚Äôinstancier le **sch√©ma pr√©c√©dent** :

```text
variables -> PromptTemplate -> LLM -> OutputParser -> string
```

LangChain g√®re pour nous :
- la cr√©ation des messages,
- l‚Äôappel mod√®le,
- la conversion de la r√©ponse en `str`.

## 3Ô∏è‚É£ Ajouter un peu de "contexte" (mini-RAG sans base vectorielle)

On simule ici un RAG **tr√®s simplifi√©** :  
- un mini "corpus" en m√©moire,  
- une fonction de r√©cup√©ration na√Øve (recherche par mots-cl√©s),  
- un prompt qui combine **question + contexte**.

L‚Äôobjectif est juste de montrer la **brique "retrieval"** dans le pipeline.

In [23]:
# Mini "base de connaissances" en m√©moire
DOCUMENTS = [
    {
        "title": "Agents d√©terministes",
        "content": "Un agent d√©terministe suit un sc√©nario fixe, sans appel √† un mod√®le de langage √† chaque √©tape."
    },
    {
        "title": "Agents IA (LLM)",
        "content": "Un agent IA utilise un mod√®le de langage pour d√©cider dynamiquement des actions √† chaque √©tape."
    },
    {
        "title": "LangChain",
        "content": "LangChain est un framework qui aide √† structurer les appels aux LLM et √† int√©grer des donn√©es, des outils et de la m√©moire."
    },
]

def simple_retriever(query: str, k: int = 2) -> str:
    """
    Tr√®s simple :
    - calcule un score bas√© sur le nombre de tokens communs
    - renvoie les k meilleurs documents concat√©n√©s
    """
    tokens = set(query.lower().split())
    scored = []
    for doc in DOCUMENTS:
        score = len(tokens.intersection(set(doc["content"].lower().split())))
        scored.append((score, doc))
    scored.sort(key=lambda x: x[0], reverse=True)
    top_docs = [doc["content"] for score, doc in scored[:k] if score > 0]
    if not top_docs:
        return "Aucun document pertinent trouv√© dans la base locale."
    return "\n\n---\n\n".join(top_docs)

print(simple_retriever("Quelle diff√©rence entre agent IA et agent d√©terministe ?"))

Un agent d√©terministe suit un sc√©nario fixe, sans appel √† un mod√®le de langage √† chaque √©tape.

---

Un agent IA utilise un mod√®le de langage pour d√©cider dynamiquement des actions √† chaque √©tape.


### üîó Cha√Æne RAG simplifi√©e 

On utilise `RunnableLambda` et `RunnablePassthrough` pour construire un pipeline :

```text
question
  ‚îú‚îÄ‚îÄ> (pass-through) ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
  ‚îî‚îÄ‚îÄ> retriever(question) -> contexte‚î§
                                      v
                           Prompt(question + contexte)
                                    |
                                    v
                                 LLM
                                    |
                                    v
                              OutputParser
```

In [24]:
from langchain_core.runnables import RunnableLambda, RunnablePassthrough

# √âtape 1 : pr√©parer le "retriever" comme Runnable
retriever_runnable = RunnableLambda(lambda q: simple_retriever(q))

# √âtape 2 : d√©finir le prompt qui int√®gre question + contexte
rag_prompt = ChatPromptTemplate.from_messages(
    [
        (
            "system",
            "Tu es un assistant qui r√©pond en t'appuyant STRICTEMENT sur le contexte fourni.\n"
            "Si une information n'est pas dans le contexte, dis-le explicitement."
        ),
        (
            "human",
            "Contexte :\n{context}\n\n"
            "Question utilisateur : {question}"
        ),
    ]
)

rag_chain = (
    {
        "question": RunnablePassthrough(),
        "context": retriever_runnable,
    }
    | rag_prompt
    | model
    | StrOutputParser()
)

question = "Explique la diff√©rence entre un agent d√©terministe et un agent IA."
print(rag_chain.invoke(question))

Un agent d√©terministe suit un sc√©nario fixe et pr√©√©tabli, sans faire appel √† un mod√®le de langage √† chaque √©tape. En revanche, un agent IA, comme ceux qui utilisent des mod√®les de langage, peut adapter ses r√©ponses et ses actions en fonction des donn√©es et des interactions en temps r√©el.


## ‚úÖ R√©cap
 
Briques pr√©sent√©es dans ce notebook :
  - mod√®le de langage (`ChatOpenAI`),
  - prompts (`ChatPromptTemplate`),
  - pipeline (`chain = prompt | model | parser`),
  - retrieval/RAG (m√™me tr√®s simplifi√©).

Pour la suite nous allons aborder :  
- l‚Äôorchestration **multi-√©tapes** avec LangGraph,  
- puis le **pattern d‚Äôagent** plus avanc√© dans le dernier notebook.