# Retrieval Augmented Generation

Nous vous proposons dans ce notebook un template de RAG fonctionnant sur la plateforme Onyxia et l'environement Azure disponible chez IDFM.
Vous pourrez vous inspirer de ce template pour toutes vos solutions basées sur de l'IA générative.

## ⚠️ Warning ⚠️

Attention, une base de données préremplie est à votre disposition. Mais si vous voulez ajouter des documents, il est nécessaire d'effectuer une étape d'indexation. Nous proposons un exemple d'implementation de cette étape dans ce [notebook](./vector_db_template.ipynb).

## Langchain

Ce template est basé sur [langchain](https://python.langchain.com/docs/introduction/), librairie devenue un standard dans l'utilisation des LLM en général.
Le tutoriel de langchain disponible en suivant ce [lien](https://python.langchain.com/docs/tutorials/rag/)

## Fonctionnement

Un RAG est une technique permettant d'enrichir les connaissances des LLM avec des données supplémentaires.

Les LLM peuvent raisonner sur des sujets très variés, mais leurs connaissances sont limitées aux données qui ont été utilisées pour leur entraînement. Si vous souhaitez créer des applications d'IA capables de traiter des données privées ou des données introduites après la date limite d'un modèle, vous devez enrichir les connaissances de celui-ci avec les informations spécifiques dont il a besoin. Le processus consistant à apporter les informations appropriées et à les insérer dans l'invite du modèle est connu sous le nom de "Retrieval Augmented Generation" (RAG).

LangChain dispose d'un certain nombre de composants conçus pour faciliter la création d'applications de questions-réponses et, plus généralement, d'applications de RAG.

Le fonctionnement standard d'un RAG fait intervenir deux étapes :
  - **L'indexation :** Phase au cours de laquelle nous déposons et indexons notre corpus de documents dans la base de données utilisée.
  - **Le retrieval & generation :** Phase qui nous permet d'executer le RAG et de l'appeler avec un prompt.

Ici, nous allons voir la partie **Retrieval et Generation**.

## Retrieval & Generation

L'étape qui nous permet d'executer notre RAG à proprement parler.

- **Retrieval :** À partir d'un prompt formé par l'utilisateur, le vector store renvoie les documents (ou extraits de documents) pertinent dans le contexte de la question. Nous utilisons ici un [Retriever](https://python.langchain.com/docs/concepts/#retrievers)
- **Generation :** L'appel de notre LLM en lui fournissant le contexte retourné par le retriever et la question de l'utilisateur. Nous utilisons pour cela un [ChatModel](https://python.langchain.com/docs/concepts/#chat-models).


![Indexation](images/rag_retrieval_generation.png)

In [1]:
import warnings

warnings.filterwarnings(
    "ignore",
    category=Warning,
    message=".*ElasticVectorSearch.*|.* using TLS with verify_certs=False is insecure.*|.*Unverified HTTPS request.*"
)

### Initialisation des identifiants

In [2]:
# Credentials

API_VERSION = "2024-09-01-preview"
AZURE_ENDPOINT = ""  # TODO: Ajouter l'endpoint
API_KEY = ""  # TODO: Ajouter la clé API

azure_open_ai_parameters = {
    "api_version": API_VERSION,
    "azure_endpoint": AZURE_ENDPOINT,
    "api_key": API_KEY
}

elastic_search_parameters = {
    "username": "elastic",
    "password": ""  # TODO: Ajouter le mot de passe elastic search
}

### Création de notre model d'embedding

Cet embedding est basé sur un model open AI hébergé sur la plateforme Azure d'IDFM appelé à l'aide d'une API.

Ici, ce modèle va permettre de transformer notre question en vecteur pour le comparer à notre base de données vectorielle.

In [3]:
from langchain_openai import AzureOpenAIEmbeddings

embedding_model = AzureOpenAIEmbeddings(
    **azure_open_ai_parameters,
    model="test-embedding",
)

### Creation de notre Vector Store

Ici un vector store sur Elastic Search.
Il est pour l'instant sur l'index global, après avoir ajouté des documents via [ce notebook](./vector_db_template.ipynb), vous pouvez changer l'index et mettre le votre.

In [5]:
from langchain.vectorstores import ElasticVectorSearch

index = "referentiel_arret"  # TODO: Changer cet index par le votre

vector_store = ElasticVectorSearch(
    elasticsearch_url=f"https://{elastic_search_parameters["username"]}:{elastic_search_parameters["password"]}@elastic-826951-elasticsearch:9200",
    index_name=index,
    embedding=embedding_model,
    ssl_verify = {'verify_certs': False}
)

## Instanciation de notre Retriever

In [6]:
retriever = vector_store.as_retriever()

## Instanciation de notre Chat Model
Nous utilisons ici un model GPT-4 hébergé sur la plateforme Azure d'IDFM

In [7]:
from langchain_openai import AzureChatOpenAI


llm = AzureChatOpenAI(
    **azure_open_ai_parameters,
    model="test-onyxia-llm-model",
    temperature=0.9,
)

## Création de notre RAG

### Prompt
Nous proposons ici un prompt personnalisé, on constate la présence des champs **{context}** et **{question}**, il s'agit des endroits ou l'on renseignera le contexte issu de notre corpus obtenu à l'aide du retriever, et la question de l'utilisateur.

In [8]:
from langchain_core.prompts import PromptTemplate

template = """
Tu es un agent d'assistance de recherche documentaire d’île de France mobilité (IDFM),
à partir des documents donnés donne toujours une réponse provenant du contexte.
Ne donne pas de réponse si le contexte ne te le permet pas.
Répond de manière concise, en trois phrases maximum.
Répond dans la langue de la question
Inclut toujours un extrait textuel des documents.

On dispose du contexte suivants : {context}

Utilisateur : "{question}"
Chat bot :
"""
custom_rag_prompt = PromptTemplate.from_template(template)

## Assemblage du RAG

Nous enchaînons ici les étapes successives nécessaire à l'execution du RAG, les objets RunnablePassthrough et StrOutputParser. L'objet [RunnablePassthrough](https://python.langchain.com/api_reference/core/runnables/langchain_core.runnables.passthrough.RunnablePassthrough.html) permettent de configurer plus finement l'appel de notre RAG, ici il se comporte comme une fonction identité. Le [StrOutputParser](https://python.langchain.com/api_reference/core/output_parsers/langchain_core.output_parsers.string.StrOutputParser.html) permet simplement d'extraire la réponse du LLM afin de pouvoir l'afficher.

In [9]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough


rag_chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | custom_rag_prompt
    | llm
    | StrOutputParser()
    | print
)

## Appel de notre rag

In [None]:
rag_chain.invoke("Quel est le niveau d'agregation au dessus des zones d'arret ?")