<img src="images/logo_simple.png" alt="logo" width="400"/>

# Retrieval Augmented Generation - Indexation

Nous vous proposons dans ce notebook un template alimentant notre base de données vectorielle (ici Elastic Search) fonctionnant sur la plateforme Onyxia et l'environement Azure disponible chez IDFM.

## Langchain

Ce template est basé sur [langchain](https://python.langchain.com/docs/introduction/), librairie devenue un standard dans l'utilisation des LLM en général.
Le tutoriel de langchain disponible en suivant ce [lien](https://python.langchain.com/docs/tutorials/rag/)

## Fonctionnement

Un RAG est une technique permettant d'enrichir les connaissances des LLM avec des données supplémentaires.

Les LLM peuvent raisonner sur des sujets très variés, mais leurs connaissances sont limitées aux données qui ont été utilisées pour leur entraînement. Si vous souhaitez créer des applications d'IA capables de traiter des données privées ou des données introduites après la date limite d'un modèle, vous devez enrichir les connaissances de celui-ci avec les informations spécifiques dont il a besoin. Le processus consistant à apporter les informations appropriées et à les insérer dans l'invite du modèle est connu sous le nom de "Retrieval Augmented Generation" (RAG).

LangChain dispose d'un certain nombre de composants conçus pour faciliter la création d'applications de questions-réponses et, plus généralement, d'applications de RAG.

Le fonctionnement standard d'un RAG fait intervenir deux étapes :
  - **L'indexation :** Phase au cours de laquelle nous déposons et indexons notre corpus de documents dans la base de données utilisée.
  - **Le retrieval & generation :** Phase qui nous permet d'executer le RAG et de l'appeler avec un prompt.

Ici, nous allons voir la partie **Indexation**.

## Indexation

L'indexation s'effectue en trois étapes :
  - **Chargement des données :** Cette opération consiste simplement à charger des données depuis une source souhaité tel qu'internet, notre system de fichier local, une base de donnée privée... Nous utiliserons ici des données disponibles sur le system de fichier local du notebook. Sous langchain cet operation peut être effectuée à l'aide de [Document Loaders](https://python.langchain.com/docs/concepts/#document-loaders)
  - **Diviser :** Les séparateurs de texte divisent les documents volumineux plusieurs petits documents. Cela est utile à la fois pour indexer les données et pour les transmettre à notre modèle qui dispose d'un nombre de token d'appel limité. Langchain propose pour cela des [Text splitters](https://python.langchain.com/docs/concepts/#text-splitters).
  - **Stocker :** Le stockage et l'indexation se fait ensuite généralement sur des bases de données vectorielles à partir d'indexations faites à l'aide d'un modèle d'embeding. Langchain propose pour cela les objets [VectorStore](https://python.langchain.com/docs/concepts/#vector-stores) et [Embeddings model](https://python.langchain.com/docs/concepts/#embedding-models)

<img src="images/rag_indexing.png" alt="logo" width="600"/>

## Faire un bon embedding


### Conservation du contexte

- **Petits segments (chunk_size) :** Si vous segmentez un document en morceaux trop petits, chaque segment peut perdre une partie du contexte. Par exemple, diviser un paragraphe en phrases individuelles peut rendre difficile la capture de la signification globale.
- **Grands segments (chunk_size) :** Si les segments sont trop grands, vous risquez de dépasser les limites du modèle ou d'incorporer trop d'informations non pertinentes, ce qui peut diluer l'embedding.


### Types de documents et objectifs

Le choix du *chunk_size* dépend aussi du type de document que vous traitez et de vos objectifs.

- **Textes longs (articles, livres, etc.) :** Ici, il est souvent recommandé de segmenter par paragraphe ou bloc sémantiquement cohérent (comme une section). Cela permet de conserver du contexte tout en gardant chaque chunk suffisamment petit.

- **Textes courts/Question-réponse ou recherche d'information :** Si vous prévoyez d'utiliser les embeddings pour rechercher des réponses précises, un chunk de taille moyenne, correspondant à un paragraphe ou quelques phrases (par exemple, 100-300 tokens), peut fournir un bon équilibre entre contexte et spécificité.


### Techniques pour améliorer les embeddings avec des chunks

- **Sliding window :** Utiliser une fenêtre glissante permet de créer des segments qui se chevauchent légèrement. Cela garantit que les phrases situées aux limites d'un chunk ne perdent pas leur contexte. Par exemple, si vous avez un chunk de 200 tokens, vous pouvez faire un chevauchement de 50 tokens avec le chunk suivant. Pour cela vous pouvez utiliser le paramètre *chunk_overlap*.

- **Segmentation naturelle :** Diviser en plusieurs documents si vous voulez insérer des informations sur divers sujets dans votre index.

In [None]:
import warnings

warnings.filterwarnings(
    "ignore",
    category=Warning,
    message=".*ElasticVectorSearch.*|.* using TLS with verify_certs=False is insecure.*|.*Unverified HTTPS request.*"
)

### Initialisation des identifiants

In [None]:
import os

API_VERSION = "2024-09-01-preview"
AZURE_ENDPOINT = os.getenv('AZURE_ENDPOINT')
API_KEY = os.getenv('OPEN_API_KEY')

azure_open_ai_parameters = {
    "api_version": API_VERSION,
    "azure_endpoint": AZURE_ENDPOINT,
    "api_key": API_KEY
}

elastic_search_parameters = {
    "username": "elastic",
    "password": os.getenv('ELASTICSEARCH_PASSWORD')
}

### Création de notre model d'embeding

Cet embedding est basé sur un model open AI hébergé sur la plateforme Azure d'IDFM appelé à l'aide d'une API.

Ici, le modèle va permettre de générer différents vecteur pour les différents documents que l'on a avant de les stocker dans notre base de données vectorielle.

In [None]:
from langchain_openai import AzureOpenAIEmbeddings

embedding_model = AzureOpenAIEmbeddings(
    **azure_open_ai_parameters,
    model="hackathon-embedding",
)

### Creation de notre Vector Store

Ici un vector store sur Elastic Search. Vous pouvez regarder la base de données Elastic Search via Onyxia.
Vous devez créer votre index personnel avant d'insérer vos documents (exemple: prénom_nom_index).

In [None]:
from langchain.vectorstores import ElasticVectorSearch

index = ""  # TODO: Ajouter votre index

vector_store = ElasticVectorSearch(
    elasticsearch_url=f"https://{elastic_search_parameters["username"]}:{elastic_search_parameters["password"]}@elastic-826951-elasticsearch:9200",
    index_name=index,
    embedding=embedding_model,
    ssl_verify = {'verify_certs': False}
)

### Initialisation de notre Document loader et splitter

Le document donné est un exemple, vous pouvez ajouter des documents dans le dossier data et changer le chemin ci-dessous vers votre document.

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import TextLoader

doc_path = "./data/documentation_referentiel_arret.txt"  # TODO: Ajouter un document dans data et modifier le chemin

loader = TextLoader(doc_path)

docs = loader.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
splits = text_splitter.split_documents(docs)

### Indexation de documents

Étape d'ajout des documents à notre base de donnée vectorielle.

In [None]:
def add_documents_by_batch(vector_store, splits, batch_size=200):
    for i in range(0, len(splits), batch_size):
        doc_batch = splits[i:i + batch_size]
        vector_store.add_documents(documents=doc_batch)

add_documents_by_batch(vector_store, splits)

### Elasticsearch

Après avoir créé votre index, vous pouvez aller sur la page graphique d'Elasticsearch [ici](https://dlb-deptdata-826951.data-platform-self-service.net/app/enterprise_search/content/search_indices) pour voir les documents insérés dedans.

### ⚠️ Réinitialisation de la base de données ⚠️

Si jamais vous avez ajouté plusiseurs fois les mêmes documents, ou si vous voulez tester de nouvelles choses, vous pouvez supprimer votre index à l'aide de ce code.

**⚠️ Attention, ce code supprime l'index d'Elasticsearch !!! ⚠️**

In [None]:
from elasticsearch import Elasticsearch

es_client = Elasticsearch(
    hosts=[f"https://{elastic_search_parameters["username"]}:{elastic_search_parameters["password"]}@elastic-826951-elasticsearch:9200"],
    verify_certs=False
)

if es_client.indices.exists(index=index):
    es_client.indices.delete(index=index)
    print(f"L'index '{index}' a été supprimé.")