## 1. Introduction


### 1.1. Description 

Dans ce projet, nous allons travailler sur un système de **génération augmentée de récupération**, ou **RAG** (*Retrieval Augmented Generation* en anglais), qui combine des modèles de langue génératifs et des techniques de recherche d'information.  

À partir d'une question donnée, nous devrons identifier les passages les plus pertinents à l'aide d'un modèle de recherche, puis générer une réponse en utilisant ces passages de texte. Enfin, nous explorerons différentes approches pour améliorer les performances de notre modèle RAG.  

### Description des données

Les passages donnés sont des textes en anglais de quelques phrases sur divers sujets. Par exemple, les mathématiques, la physique, la chimie, la biologie l'informatique, la musique et la psychologie. En général, les textes abordent des sujets très spécifiques reliés à un domaine. Par exemple, il pourrait y avoir 1000 textes parlant d'informatique et 100 qui abordent, à leur manière, la notion de mémoire. Parmi ces 100 passages, 5 pourraient aborder la mémoire dans un processeur spécifique.

En ce qui concerne les questions, elles sont basées sur les sujets de certains textes précis et on peut y répondre à l'aide d'au moins un des textes. Dans certains cas, plusieurs textes sont nécessaires pour répondre à la question. Par exemple, plusieurs textes pourraient aborder le processeur Intel i7-13700k, mais la question pourrait nécessiter l'information de tous ces textes pour trouver la réponse.
Les questions ont été créées pour faire en sorte que les réponses soient assez courtes. Il peut s'agir d'un simple nombre ou de quelques mots (< 30 mots).


Vous trouverez ~ 13 000 passages dans le corpus pour ~ 1 700 paires de questions / réponses dans le jeu d'entraînement et ~ 500 dans le jeu de validation. Vous devez prédire 500 réponses aux questions du jeu de test.

### Exemple

Par exemple, pour la question

> What type of bonds are used to form branches in glycogen?

Avec l'approche RAG, plutôt que de générer la réponse directement, on va d'abord chercher dans un corpus de passages. Dans cet exemple, un des passages pertinents est :

> **Glycogen Structure and Function** : Glycogen is a molecular polymer of glucose used for energy storage. It is composed of linear chains of glucose molecules linked by α-1,4-glycosidic bonds, with branches formed off the chain via α-1,6-glycosidic bonds. The branches provide additional ""free ends"" for linear chains, allowing for faster glucose release.

Puis on génère une réponse conditionnée par les passages pertinents :

> α-1,6-glycosidic bonds

### Motivation

Le RAG est une approche très populaire en ce moment. Elle permet notamment d'avoir des sources qui supportent les réponses générées, ce qui peut être utile pour la vérification de faits ou pour contrôler les hallucinations. De plus, elle permet d'intégrer des connaissances externes et récentes dans les modèles de génération sans avoir à les ré-entraîner.

### Objectif du projet  

Dans ce projet, nous allons implémenter plusieurs systèmes de question-réponse. Tout d'abord, nous testerons une approche de *prompting* qui ne s'appuie sur aucun passage pour aider le modèle de génération. Ensuite, nous mettrons en place un système figé utilisant un modèle de plongements statique pour retrouver les *k* passages les plus pertinents, qui seront ensuite fournis à un modèle de génération figé.  

Enfin, nous développerons une nouvelle méthode en nous basant sur les dernières avancées de l'état de l'art afin d'optimiser les performances et d'atteindre des meilleurs résultats.

### Jeux de données

Nous avons 4 fichiers à notre disposition :
- 'rag_texts.csv' : le corpus de passages extraits de Wikipédia.
  - **id** : l'identifiant unique du passage.
  - **text** : le texte du passage.
- 'rag_questions_train.csv', 'rag_questions_val.csv' et 'rag_questions_test.csv' : les questions d'entraînement, de validation et de test.
  - **id** : l'identifiant unique de la question.
  - **question** : La question.
  - **text_id** (sauf pour le fichier de test) : la liste des identifiants des passages pertinents du corpus 'rag_texts.csv' pour la question.
  - **answer** (sauf pour le fichier de test) : la réponse à la question.

### Sortie :  

En sortie, notre modèle produira un fichier CSV contenant deux colonnes :  
- **id** : l'identifiant de la question dans le jeu de données de test.  
- **answer** : la réponse générée pour cette question.  

Afin d'évaluer les performances de notre modèle sur l'ensemble de validation, nous utiliserons la métrique **BLEU**, qui permet de mesurer la similarité entre les réponses générées et les réponses de référence en comparant les n-grammes communs. Cette métrique est couramment utilisée pour évaluer la qualité des modèles de génération de texte, en particulier en traduction automatique et en question-réponse.

### Note:

- **Modèle génératif** : afin de mieux comparer les différentes approches, nous avons choisi d'utiliser exclusivement le modèle [microsoft/Phi-3-mini-128k-instruct](https://huggingface.co/microsoft/Phi-3-mini-128k-instruct), disponible sur Hugging Face. Cette contrainte garantit que les performances ne dépendent pas uniquement de la puissance du modèle de génération.  
- **Modèles de plongements à utiliser** : [BAAI/bge-small-en-v1.5](https://huggingface.co/BAAI/bge-small-en-v1.5).

### 1.2. Description des données et métriques d’évaluation


In [1]:
!pip install datasets accelerate



In [2]:
!pip install faiss-gpu



In [3]:
# Import des librairies

import os
import torch
import numpy as np
import pandas as pd
from tqdm import tqdm
import matplotlib.pyplot as plt
from typing import Optional
from transformers import AutoTokenizer, AutoModel, AutoModelForCausalLM, pipeline, BitsAndBytesConfig
from collections import Counter
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

from datasets import load_dataset
from transformers import AutoModelForCausalLM, AutoTokenizer
from nltk.translate.bleu_score import sentence_bleu
import nltk
import faiss

  from .autonotebook import tqdm as notebook_tqdm


In [4]:
# Si vous stockez vos données sur Google Drive

# from google.colab import drive
# drive.mount('/content/drive')

In [5]:
# root_path = '/content/drive/MyDrive/'
# data_path = root_path + 'dataTp4/'

data_path = 'data/'

## 2. Analyse exploratoire et modèle de génération simple 

Pour commencer ce projet et établir des modèles de base (*baselines*), nous allons utiliser un modèle de génération simple pour répondre aux questions. Nous travaillerons avec le modèle **'microsoft/Phi-3-mini-128k-instruct'**, disponible sur Hugging Face.  

Dans cette première étape, nous générerons des réponses aux questions de l’ensemble de validation (*questions_val.csv*) sans utiliser de passages pour aider le modèle.

### 2.1. Chargement des données 

#### 2.1.1 Taille des données 

Affichons la taille de tous les jeux de données et quelques questions de l'ensemble d'entraînement

In [6]:
# TODO
train = pd.read_csv(data_path + 'questions_train.csv')
val = pd.read_csv(data_path + 'questions_val.csv')
test = pd.read_csv(data_path + 'questions_test.csv')
text = pd.read_csv(data_path + 'texts.csv')

Conversion des indices en liste de integer

In [7]:
train['text_ids'] = train["text_ids"].apply(lambda x: [int(i) for i in x.replace("[", "").replace("]", "").split(" ") if i.isdigit()])
val['text_ids'] = val["text_ids"].apply(lambda x: [int(i) for i in x.replace("[", "").replace("]", "").split(" ") if i.isdigit()])

In [8]:
print(f"Taille de l'ensemble d'entraînement: {len(train)}")
print(f"Taille de l'ensemble de validation: {len(val)}")
print(f"Taille de l'ensemble de test: {len(test)}")

Taille de l'ensemble d'entraînement: 1747
Taille de l'ensemble de validation: 500
Taille de l'ensemble de test: 500


In [9]:
train["question"].head()
# TODO

0    What type of insects are vectors for the Haemo...
1    What is the basis of the security of the BBS a...
2    What is the purpose of the catalase test in ba...
3    What type of cells clear small particles in ve...
4    What information is needed to decrypt a messag...
Name: question, dtype: object

#### 2.1.2 Analyse exploratoire 

a) Sur l'ensemble d'entraînement, affichons :
- Le nombre moyen de mots dans une question
- Le nombre moyen de mots dans une réponse
- Le nombre moyen de passages nécessaires pour répondre à une question
- Le nombre minimal de passages nécessaires pour répondre à une question
- Le nombre maximal de passages nécessaires pour répondre à une question


In [11]:
# TODO
mean_word_q = train["question"].apply(lambda x: len(x.split())).mean()
print(f"Le nombre moyen de mots dans une question: {mean_word_q}")

mean_word_a = train["answer"].apply(lambda x: len(x.split())).mean()
print(f"Le nombre moyen de mots dans une réponse: {mean_word_a}")

mean_passage = train['text_ids'].apply(lambda x: len(x)).mean()
print(f"Le nombre moyen de passages nécessaires pour répondre à une question: {mean_passage}")

min_passage = train['text_ids'].apply(lambda x: len(x)).min()
print(f"Le nombre minimal de passages nécessaires pour répondre à une question: {min_passage}")

max_passage = train['text_ids'].apply(lambda x: len(x)).max()
print(f"Le nombre maximal de passages nécessaires pour répondre à une question: {max_passage}")

# END TODO

Le nombre moyen de mots dans une question: 10.37263880938752
Le nombre moyen de mots dans une réponse: 6.084144247281054
Le nombre moyen de passages nécessaires pour répondre à une question: 2.839152833428735
Le nombre minimal de passages nécessaires pour répondre à une question: 2
Le nombre maximal de passages nécessaires pour répondre à une question: 4


b) De plus, affichons des histogrammes décrivant la distribution du nombre de mots des questions, des réponses et des textes. Utilisez des bacs (bins) de 50. 

In [None]:
# TODO
plt.hist(train["question"].apply(lambda x: len(x.split())), bins=50)
plt.title("Distribution du nombre de mots des questions")
plt.xlabel("Nombre de mots")
plt.ylabel("Fréquence")
plt.show()


In [None]:
plt.hist(train["answer"].apply(lambda x: len(x.split())), bins=50)
plt.title("Distribution du nombre de mots des réponses")
plt.xlabel("Nombre de mots")
plt.ylabel("Fréquence")
plt.show()

In [None]:
plt.hist(text["text"].apply(lambda x: len(x.split())), bins=50)
plt.title("Distribution du nombre de mots des passages ")
plt.xlabel("Nombre de mots")
plt.ylabel("Fréquence")
plt.show()
#END TODO

COMMENTAIRE:

- Les questions sont en moyenne plus longues que les réponses

- Les réponses sont très courtes

- Les passages font en moyenne 40 mots

### 2.2. Chargement du modèle et génération des réponses 

Nous allons maintenant évaluer la performance d'un modèle de langue à répondre aux questions de l'ensemble de validation. Chargeons d'abord le modèle **'microsoft/Phi-3-mini-128k-instruct'** avec la librairie `transformers` de huggingface et générons les réponses du modèle à partir de la question. 

In [12]:
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
BATCH_SIZE = 16

READER_MODEL_NAME = "microsoft/Phi-3-mini-128k-instruct"

In [13]:
# TODO

model_reader = AutoModelForCausalLM.from_pretrained(
    READER_MODEL_NAME,
)
tokenizer_reader = AutoTokenizer.from_pretrained(READER_MODEL_NAME)

READER_LLM = pipeline(
    model=model_reader,
    tokenizer=tokenizer_reader,
    task="text-generation",
    do_sample=True,
    temperature=0.7,
    repetition_penalty=1.1,
    return_full_text=False,
    device= 0 if DEVICE == "cuda" else -1,
    max_new_tokens=32,
)
# END TODO

Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.28s/it]


### 2.3. Évaluation des réponses 

Nous allons créer la fonction `evaluate_bleu` et utiliser la métrique BLEU pour évaluer les réponses générées par rapport aux réponses attendues sur le jeu de validation. Nous évaluerons notre modèle avec les métriques **BLEU-1** et **BLEU-2** :  

- **BLEU-1** prend en compte uniquement les unigrammes pour évaluer la qualité des réponses.  
- **BLEU-2** intègre également les bigrammes pour une évaluation plus fine.  



In [14]:
def evaluate_bleu(df_true: pd.DataFrame, df_pred: pd.DataFrame, bleu_type: int):
    """
    Évalue les réponses générées en utilisant la métrique BLEU.

    Paramètres:
    df_true (pd.DataFrame): DataFrame contenant les vraies réponses avec des colonnes 'id' et 'answer'.
    df_pred (pd.DataFrame): DataFrame contenant les réponses prédites avec des colonnes 'id' et 'answer'.
    bleu_type (int): Nombre (soit 1 ou 2) correspondant aux n-grammes considérés pour la métrique (bleu_type = 1 : BLEU-1, bleu_type = 2 : BLEU-2)

    Retourne:
    float: Score BLEU moyen sur toutes les entrées.
    """
    # TODO
    scores = []
    for i in range(len(df_true)):
        true_answer = df_true.iloc[i]['answer']
        pred_answer = df_pred.iloc[i]['answer']
        if bleu_type == 1:
            scores.append(sentence_bleu([true_answer.split()], pred_answer.split(),weights=(1, 0, 0, 0)))
        elif bleu_type == 2:
            scores.append(sentence_bleu([true_answer.split()], pred_answer.split(),weights=(0, 1, 0, 0)))
        else:
            raise ValueError("bleu_type 1 or 2")
    return np.mean(scores)

    # END TODO

In [16]:
# TODO

questions = val["question"].tolist()

predictions = READER_LLM(questions, batch_size=1)

pred = [output[0]["generated_text"] for output in predictions]

torch.cuda.empty_cache()

df_pred = pd.DataFrame({"id": val["id"], "answer": pred})
df_true = val[["id", "answer"]]
# TODO

In [17]:
bleu_1 = evaluate_bleu(df_true, df_pred, 1)
bleu_2 = evaluate_bleu(df_true, df_pred, 2)

The hypothesis contains 0 counts of 2-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()
The hypothesis contains 0 counts of 3-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()
The hypothesis contains 0 counts of 4-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()


In [18]:
print(f"BLEU-1: {bleu_1}")
print(f"BLEU-2: {bleu_2}")

BLEU-1: 0.06517458063112228
BLEU-2: 0.012476048968439521


BLEU-1: 0.06517458063112228
BLEU-2: 0.012476048968439521

### 2.4. Commentaire 




Performance obtenue:

- BLEU-1: 0.06662334044572885

- BLEU-2: 0.015467704378992813

-> Les perfomances sont très faibles. Le modèle n'a pas été entrainé sur ce sujet, ne peux donc répondre sans contexte.


## 3. Approche RAG figé 
.lightning_studio
Dans cette partie, nous allons implémenter une approche simple de **RAG figé**. Ce modèle est qualifié de figé car aucun ré-entraînement n’est effectué. Nous mettrons en place deux variantes : avec ou sans l'utilisation d'un algorithme d'indexation.  

Dans cette approche, nous commencerons par retrouver les passages pertinents pour chaque question à l'aide d'un modèle de plongements basé sur Transformers, puis nous générerons une réponse conditionnée par ces passages.  

Pour cela, nous utiliserons :  
- **[BAAI/bge-small-en-v1.5](https://huggingface.co/BAAI/bge-small-en-v1.5)** comme modèle de plongements (*embedding model*) afin d'obtenir les vecteurs des questions et des passages.  
- **[microsoft/Phi-3-mini-128k-instruct](https://huggingface.co/microsoft/Phi-3-mini-128k-instruct)** comme modèle de génération (*generative model*) pour produire les réponses.

### 3.1 RAG figé sans indexation 

In [15]:
EMBED_MODEL_NAME = "BAAI/bge-small-en-v1.5"

#### 3.1.1 Passages pertinents 

Pour retrouver les passages pertinents, nous avons encodé les questions et les passages avec le modèle de plongements. Puis, nous avons calculé la similarité cosinus entre les questions et les passages pour retrouver les $k$ passages les plus pertinents pour chaque question.

In [16]:
# TODO
tokenizer = AutoTokenizer.from_pretrained(EMBED_MODEL_NAME)
model = AutoModel.from_pretrained(EMBED_MODEL_NAME)
# END TODO

In [17]:
def encode_sequences(sequences: list, tokenizer, model, device = DEVICE, batch_size = BATCH_SIZE):
    """
    Encode les textes en utilisant le modèle passé en paramètre pour générer les plongements des textes

    Paramètres:
    sequences    : Liste de séquence à transformer en plongements
    tokenizer   : Segmenteur du modèle de plongements
    model       : Modèle de plongements
    device      : Machine sur laquelle les opérations doivent être effectuées
    batch_size  : Taille des lots lors de la génération des traitements
    """
    # TODO

    model.to(device)
    model.eval()

    embeddings = []
    with torch.no_grad():
        for i in range(0, len(sequences), batch_size):

            batch_sequences = sequences[i:i + batch_size]

            # Tokenizer
            tokens_sentences = tokenizer(batch_sequences, padding=True, truncation=True, return_tensors="pt").to(device)
            #Embedding
            embed_sentences = model(**tokens_sentences)

            embeddings.extend(embed_sentences[0][:,0])

    embeddings = torch.stack(embeddings)
    return embeddings
    # END TODO

In [18]:
# TODO

encoded_passages = encode_sequences(text["text"].to_list(), tokenizer, model)
# END TODO

#### 3.1.2 Évaluation des passages retrouvés avec Recall@k et precision@k 

Maintenant que les passages ont tous été encodés, on peut évaluer si les passages retrouvés sont pertinents. En prenant les $k$ premiers passages, on peut évaluer si on retrouve les bons passages associés aux questions. C'est un des avantages du système RAG : on peut évaluer de façon indépendante la qualité du système qui retrouve les passages pertinents et de celui qui génère les réponses. Cela permet notamment d'évaluer quels sont les points forts et points faibles du système.

Pour cela, nous allons utiliser les métriques **Precision@k** et **Recall@k** définies dans les équations suivantes. 

$$\text{Precision@k} = \frac{\text{Nombre d'éléments pertinents dans les k premiers}}{k}$$

$$\text{Recall@k} (Rappel@k) = \frac{\text{Nombre d'éléments pertinents dans les k premiers}}{\text{Nombre total d'éléments pertinents}}$$


In [19]:
def compute_recall_at_k(ground_truth, predictions):
    """
    Calcule la métrique du "Recall@k". On assume que predictions contiennent le bon nombre de passages (=k)

    Paramètres:
    ground_truth : Liste contenant tous les vrais passages associés aux questions (ex : [[1, 2, 3], [4, 5, 6]] si les passages de la question 1 sont [1, 2, 3] et
    les passages de la question 2 sont [4, 5, 6])
    predictions : Liste contenant tous les passages retrouvés pour chacune des questions formattée de la même manière que `ground_truth`

    Retourne:
    Recall moyen
    """
    # TODO
    recalls = []
    for i in range(len(ground_truth)):
        #return the size of the intersection
        nbk = len(set(ground_truth[i]) & set(predictions[i]))
        recalls.append( nbk / len(ground_truth[i]))
    return np.mean(recalls)


    # END TODO

In [54]:
def compute_precision_at_k(ground_truth, predictions):
    """
    Calcule la métrique du "Precision@k". On assume que predictions contiennent le bon nombre de passages (=k)

    Paramètres:
    ground_truth : Liste contenant tous les vrais passages associés aux questions (ex : [[1, 2, 3], [4, 5, 6]] si les passages de la question 1 sont [1, 2, 3] et
    les passages de la question 2 sont [4, 5, 6])
    predictions : Liste contenant tous les passages retrouvés pour chacune des questions formattée de la même manière que `ground_truth`

    Retourne:
    Précision moyenne
    """

    # TODO
    precisions = []
    for i in range(len(ground_truth)):
        nbk = len(set(ground_truth[i]) & set(predictions[i]))
        precisions.append(nbk / len(predictions[i]))
    return np.mean(precisions)

    # END TODO


#### 3.1.3 Résultat d'évaluation 
On implemente la fonction _'retrieve_passages'_ qui retourne les indices des $k$ passages les plus similaires pour une question. On utilise la similarité cosinus pour comparer les passages et les questions. Nous allons ensuite evaluer notre modèle de récupération en comparant notre sortie au passages pertinent du dataset de validation avec les métriques Precision@k et Recall@k.

In [20]:
import torch.nn.functional as F

In [21]:
def retrieve_passages(questions: list, passage_embed: torch.Tensor, k: int, embedding_model_tokenizer, embedding_model):
    """
    Retourne les k passages les plus pertinents pour chaque question passée en paramètre

    Paramètres:
    questions       : Les questions pour lesquelles on cherche les passages les plus pertinents
    passage_embed   : Tenseur contenant les plongements de chaque passage (n, dim)
    k               : le nombre de passages à retourner
    tokenizer       : Segmenteur du modèle de plongements
    model           : Modèle de plongements

    Retourne:
    Les indices des k passages les plus pertinents pour la question
    """
    # TODO


    all_top_k_indices = []
    batch_size = 16
    # compute cos sim with batch to not run out of memory
    for i in range(0, len(questions), batch_size):
        batch_questions = questions[i:i + batch_size]

        encoded_questions = encode_sequences(batch_questions, embedding_model_tokenizer, embedding_model)

        similarity_scores = F.cosine_similarity(
            encoded_questions.unsqueeze(1), passage_embed.unsqueeze(0), dim=2
        )

        # Best k passages
        top_k_indices = similarity_scores.topk(k, dim=1).indices
        all_top_k_indices.append(top_k_indices)

        # delete unused elements
        del encoded_questions, similarity_scores, top_k_indices
        torch.cuda.empty_cache()

    all_top_k_indices = torch.cat(all_top_k_indices, dim=0)
    return all_top_k_indices

    # END TODO


In [107]:
# TODO
best_1_passages = retrieve_passages(train["question"].to_list(), encoded_passages, 1, tokenizer, model)
best_2_passages = retrieve_passages(train["question"].to_list(), encoded_passages, 2, tokenizer, model)
best_3_passages = retrieve_passages(train["question"].to_list(), encoded_passages, 3, tokenizer, model)
best_4_passages = retrieve_passages(train["question"].to_list(), encoded_passages, 4, tokenizer, model)
# END TODO

#### 3.1.4 Graphique (3 points)
Affichons maintenant un graphique de nos résultats de la question précédente, en représentant sur l'axe des **x** la valeur de *k* et sur l'axe des **y** la précision et le rappel.  


In [109]:
# TODO
precisions_1 = compute_precision_at_k(train['text_ids'], best_1_passages.tolist())
recall_1 = compute_recall_at_k(train['text_ids'], best_1_passages.tolist())

precisions_2 = compute_precision_at_k(train['text_ids'], best_2_passages.tolist())
recall_2 = compute_recall_at_k(train['text_ids'], best_2_passages.tolist())

precisions_3 = compute_precision_at_k(train['text_ids'], best_3_passages.tolist())
recall_3 = compute_recall_at_k(train['text_ids'], best_3_passages.tolist())

precisions_4 = compute_precision_at_k(train['text_ids'], best_4_passages.tolist())
recall_4 = compute_recall_at_k(train['text_ids'], best_4_passages.tolist())
# END TODO

In [22]:
def plot_retrieval(measures,k,title,axes) :

  fig = plt.figure(figsize=(10, 5))
  ax1 = fig.add_subplot(121)

  # Tracé de la courbe avec des marqueurs et une couleur
  ax1.plot(axes, measures,
          marker='o', color='b', linestyle='-', linewidth=2, markersize=6, label=title)

  # Ajout des labels et du titre
  ax1.set_xlabel('k', fontsize=12, fontweight='bold')
  ax1.set_ylabel(title, fontsize=12, fontweight='bold')
  ax1.set_title(f'Courbe de {title} en fonction de k', fontsize=14, fontweight='bold')

  ax1.grid(True, linestyle='--', alpha=0.7)

  ax1.set_xlim(1, len(axes))
  ax1.set_ylim(0, 1)

  # Affichage
  plt.tight_layout()

In [None]:
precisions = [precisions_1, precisions_2, precisions_3, precisions_4]
recalls = [recall_1, recall_2, recall_3, recall_4]
plot_retrieval(precisions, "k", "Precision",[1, 2, 3, 4])
plot_retrieval(recalls, "k", "Recall",[1, 2, 3, 4])

-> On cherche un équilibre entre la précision et le rappel. Une haute précision implique choisir un k plus petit mais un rapel faible. On souhaite récupérer un nombre suffisant de documents pertinents sans ajouter du bruit. Au regard des graphiques on choisit ainsi k=3. De cette manière au fait correspondre notre k au nombre moyen de documents par question étant de envion de 3.

### 3.2 RAG figé avec FAISS 

Maintenant, nous allons utiliser **FAISS** pour l'indexation des plongements des passages.  

[FAISS (*Facebook AI Similarity Search*)](https://ai.meta.com/tools/faiss/) est une bibliothèque open-source développée par Meta pour la recherche de similarité rapide sur des vecteurs denses, comme des *embeddings* de textes ou d'images. Elle est optimisée pour traiter de grands volumes de données en haute dimension et peut tirer parti des GPU pour accélérer les calculs.  

FAISS est largement utilisée dans les systèmes de recommandation et la recherche d'information à grande échelle.

#### 3.2.1 Initialisez l'indexation FAISS avec les plongements des passages 

Nous allons utiliser les plongements des passages générés à la question **3.1.1** et les indexer avec **FAISS**. Nous vérifierons que le nombre de plongements dans l'objet FAISS correspond bien au nombre de passages.  

Il est important de s'assurer que l'indexation est basée sur la **similarité cosinus** pour garantir des résultats pertinents.

In [23]:
# TODO

# déplacement sur cpu pour normaliser
encoded_passages = encoded_passages.cpu().numpy()
#Normalisation
encoded_passages = encoded_passages / np.linalg.norm(encoded_passages, axis=1, keepdims=True)

index = faiss.IndexFlatIP(encoded_passages.shape[1]) # Inner Product pour la similarité cosinus
index.add(encoded_passages)
# END TODO

In [24]:
assert index.ntotal == encoded_passages.shape[0]

print(f"Nombre de vecteurs indexés dans FAISS : {index.ntotal}")

Nombre de vecteurs indexés dans FAISS : 13314


#### 3.2.2 Récupération des passages avec FAISS 

Implémentons la fonction `_retrieve_passages_faiss_`, qui renvoie les indices des *k* passages les plus similaires à une question en utilisant une indexation avec **FAISS**.


In [25]:
def retrieve_passages_faiss(questions: list, vector_index: faiss.IndexFlatL2, k: int, embedding_model_tokenizer, embedding_model):
    """
    Retourne les k passages les plus pertinents pour chaque question passée en paramètre

    Paramètres:
    questions       : Les questions pour lesquelles on cherche les passages les plus pertinents
    vector_index    : L'objet d'indexation FAISS
    k               : le nombre de passages à retourner
    tokenizer       : Segmenteur du modèle de plongements
    model           : Modèle de plongements

    Retourne:
    Les indices des k passages les plus pertinents pour la question
    """
    # TODO
    #plongements des questions
    encoded_questions = encode_sequences(questions, embedding_model_tokenizer, embedding_model)
    encoded_questions = encoded_questions.cpu().numpy()
    encoded_questions = encoded_questions / np.linalg.norm(encoded_questions, axis=1, keepdims=True)

    #Retrieval
    dists, idx = vector_index.search(encoded_questions, k)

    return idx
    # END TODO

#### 3.2.3 Exécution de FAISS 

Nous allons maintenant exécuter la fonction `_retrieve_passages_faiss_` afin de récupérer les passages les plus pertinents pour les questions du jeu de validation, en utilisant notre valeur optimale de *k*.

In [33]:
# TODO
best_1_passages_faiss = retrieve_passages_faiss(val["question"].to_list(), index, 1, tokenizer, model)
best_2_passages_faiss = retrieve_passages_faiss(val["question"].to_list(), index, 2, tokenizer, model)
best_3_passages_faiss = retrieve_passages_faiss(val["question"].to_list(), index, 3, tokenizer, model)
best_4_passages_faiss = retrieve_passages_faiss(val["question"].to_list(), index, 4, tokenizer, model)
best_5_passages_faiss = retrieve_passages_faiss(val["question"].to_list(), index, 5, tokenizer, model)
# END TODO


#### 3.2.4 Calculons les métriques Precision@K et Rappel@K pour les passages retrouvés avec FAISS avec notre k optimal 

In [73]:
# TODO

precisions_3 = compute_precision_at_k(val['text_ids'].to_list(), best_3_passages_faiss.tolist())
recall_3 = compute_recall_at_k(val['text_ids'].to_list(), best_3_passages_faiss.tolist())


In [74]:
print(f"Precision@3: {precisions_3}")
print(f"Recall@3: {recall_3}")
# END TODO

Precision@3: 0.5593333333333333
Recall@3: 0.6031666666666666


-> Nous obtenons ainsi une précision de 0.55 et un rapel de 0.60.

Observons pour les autres k.

In [75]:
precisions_1 = compute_precision_at_k(val['text_ids'], best_1_passages_faiss.tolist())
recall_1 = compute_recall_at_k(val['text_ids'], best_1_passages_faiss.tolist())

precisions_2 = compute_precision_at_k(val['text_ids'], best_2_passages_faiss.tolist())
recall_2 = compute_recall_at_k(val['text_ids'], best_2_passages_faiss.tolist())

precisions_4 = compute_precision_at_k(val['text_ids'], best_4_passages_faiss.tolist())
recall_4 = compute_recall_at_k(val['text_ids'], best_4_passages_faiss.tolist())

precisions_5 = compute_precision_at_k(val['text_ids'], best_5_passages_faiss.tolist())
recall_5 = compute_recall_at_k(val['text_ids'], best_5_passages_faiss.tolist())

In [None]:
precisions = [precisions_1, precisions_2, precisions_3, precisions_4, precisions_5]
recalls = [recall_1, recall_2, recall_3, recall_4, recall_5]
plot_retrieval(precisions, "k", "Precision",[1, 2, 3, 4, 5])
plot_retrieval(recalls, "k", "Recall",[1, 2, 3, 4, 5])

Remarque sur Faiss

- Exécution très rapide avec recherche par lot.
- On obtient les mêmes résultats en précision et rappel. Ce qui n'est pas étonnant, étant donné que dans les deux méthodes, nous utilisons la similarité cosinus et les même plongements.

### 3.3 Prommpt et Génération des réponses 

Nous allons maintenant générer les réponses aux questions du jeu de validation en utilisant les passages récupérés. Pour cela, nous concaténerons les passages pertinents avec la question selon un certain prompt avant de les soumettre au modèle de génération.  

In [26]:
# TODO

prompt_in_chat_format = [
    {
        "role": "system",
        "content": """Using only the information provided in the context, provide a on sentence short direct answer to the question.""",
    },
    {
        "role": "user",
        "content": """Context:
{context}
---
Here is the question you need to answer.

Question: {question}""",
    },
]

# Utilisé lors du Fine Tune pour reduire la memoire
# RAG_PROMPT_TEMPLATE = tokenizer_lora.apply_chat_template(
#     prompt_in_chat_format, tokenize=False, add_generation_prompt=True
# )

RAG_PROMPT_TEMPLATE = tokenizer_reader.apply_chat_template(
    prompt_in_chat_format, tokenize=False, add_generation_prompt=True
)

# END TODO

In [27]:
print(RAG_PROMPT_TEMPLATE)


<|system|>
Using only the information provided in the context, provide a on sentence short direct answer to the question.<|end|>
<|user|>
Context:
{context}
---
Here is the question you need to answer.

Question: {question}<|end|>
<|assistant|>



In [28]:
def add_context(passages):
  context = "\nExtracted documents:\n"
  context += "".join(
      [f"Document {str(row)}:::\n" + text["text"].iloc[row] for row in passages ]
  )
  return context


In [29]:
# TODO

def create_prompt_context(questions,passages):

  questions_context = [
      #crée le prompt pour chaque question
      RAG_PROMPT_TEMPLATE.format(
          question=question,
          context=add_context(passages[idx])
      )
      for idx, question in enumerate(questions)
  ]
  return questions_context


In [34]:
questions_prompt_1 = create_prompt_context(val["question"], best_1_passages_faiss)
questions_prompt_2 = create_prompt_context(val["question"], best_2_passages_faiss)
questions_prompt_3 = create_prompt_context(val["question"], best_3_passages_faiss)
questions_prompt_4 = create_prompt_context(val["question"], best_4_passages_faiss)

Exemple

In [48]:
questions_prompt_3[1]

'<|system|>\nUsing only the information provided in the context, provide a on sentence short direct answer to the question.<|end|>\n<|user|>\nContext:\n\nExtracted documents:\nDocument 8865:::\n  Carbapenems are structurally similar to penicillins, but with a carbon atom replacing the sulfur atom in position 1. They are biosynthesized through a series of steps involving the condensation of malonyl-CoA with glutamate-5-semialdehyde, followed by the formation of the β-lactam and saturated carbapenam core.Document 5333:::\n  Carbapenems are a class of highly effective antibiotic agents commonly used for the treatment of severe or high-risk bacterial infections. They are usually reserved for known or suspected multidrug-resistant (MDR) bacterial infections and have a broader spectrum of activity compared to most cephalosporins and penicillins.Document 2651:::\n  The growing prevalence of carbapenem-resistant Enterobacteriaceae has led to a renaissance of the use of antibiotics such as coli

### 3.4 Évaluation des réponses 
Nous allons évaluer les réponses générées par rapport aux réponses attendues sur le jeu de validation.

In [30]:
READER_LLM = pipeline(
    model=model_reader,
    tokenizer=tokenizer_reader,
    task="text-generation",
    do_sample=True,
    temperature=0.2, # Température basse pour la génération
    repetition_penalty=1.1,
    return_full_text=False,
    device= 0 if DEVICE == "cuda" else -1,
    max_new_tokens=32,
)

In [31]:
# TODO
def evaluate_rag(val,set_questions, READER):
  results = []
  #dataset ground truth
  df_true = val[["id", "answer"]]
  for set_k in set_questions :
    pred = []
    questions = set_k[0]
    k = set_k[1]
    print(f"Porcessing k = {k}")

    for question in questions :
      #génération de la réponse
      pred.append(READER(question)[0]["generated_text"])

    #dataset prediction
    df_pred = pd.DataFrame({"id": val["id"], "answer": pred})

    bleu_1 = evaluate_bleu(df_true, df_pred, 1)
    bleu_2 = evaluate_bleu(df_true, df_pred, 2)

    del df_pred
    torch.cuda.empty_cache()

    results.append([k,bleu_1, bleu_2])

  return results
# END TODO

In [35]:
set_questions = [[questions_prompt_1,1], [questions_prompt_2,2], [questions_prompt_3,3], [questions_prompt_4,4]]

In [52]:
results = evaluate_rag(val,set_questions)

Porcessing k = 1


You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset
The hypothesis contains 0 counts of 2-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()
The hypothesis contains 0 counts of 3-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()
The hypothesis contains 0 counts of 4-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()


Porcessing k = 2
Porcessing k = 3
Porcessing k = 4


In [53]:
for res in results :
  print(f"Bleu score pour k = {res[0]}")
  print(f"BLEU-1: {res[1]}")
  print(f"BLEU-2: {res[2]}")

Bleu score pour k = 1
BLEU-1: 0.3489355885101853
BLEU-2: 0.2145229330762801
Bleu score pour k = 2
BLEU-1: 0.3805855055461511
BLEU-2: 0.252961288648296
Bleu score pour k = 3
BLEU-1: 0.4205482663894729
BLEU-2: 0.2782441287195915
Bleu score pour k = 4
BLEU-1: 0.44278362113848874
BLEU-2: 0.2966836680092076


-> Bleu score pour k = 1
BLEU-1: 0.3489355885101853
BLEU-2: 0.2145229330762801

-> Bleu score pour k = 2
BLEU-1: 0.3805855055461511
BLEU-2: 0.252961288648296

-> Bleu score pour k = 3
BLEU-1: 0.4205482663894729
BLEU-2: 0.2782441287195915

-> Bleu score pour k = 4
BLEU-1: 0.44278362113848874
BLEU-2: 0.2966836680092076

Remarque:

Basé sur les scores de génération, on peut conlure que le nombre optimal est de 4. Cela montre qu'il est préférable d'ajouter plus d'informations au risque d'ajouter du bruit. Le modèle LLM pourra lui même identifier la bonne information.

### 3.5 Sortie en csv


In [54]:
best_4_passages_faiss_test = retrieve_passages_faiss(test["question"].to_list(), index, 4, tokenizer, model)
questions_prompt_4_test = create_prompt_context(test["question"], best_4_passages_faiss_test)

In [None]:
import datetime


def create_submission(questions):

  date = datetime.datetime.now()
  date_str = str(date)[:10]
  results = []
  question_ids = test["id"]

  for question in questions :
    pred = READER_LLM(question)[0]["generated_text"]
    results.append(pred)
  #format soumissions
  df_submission = pd.DataFrame({
        'id': question_ids,
        'answer': results
    })

  df_submission.to_csv(f"submissions_{date_str}", index=False)


In [56]:
create_submission(questions_prompt_4_test)

## 4. Nouvelle methode

### 4.1. État de l'art 



Synthèse:

Le domaine de la génération augmentée par recherche (RAG), s'est vu améliorer de deux approches différentes. L'une en se contentant d'améliorer la structure initiale des RAG, les RAG avancées et l'autre en  y ajoutant des nouveaux éléments, les RAG modulaires. 

Des RAG avancées nous pouvons tirer la méthode du reranking, consitant à trier les résultats d'une première recherche dense, à l'aide de modèle Cross-encoder par exemple. Les plus récentes méthodes proposes le reranking LLM. De plus, nous pouvons noter, les techniques portant sur l'enrechissement de la requête, avec la méthode de Sub-Query. Elle consite à diviser la requête en sous requête pour contextualiser davantage la question. En effectuant plusieurs recherches de documents en parrallèle sur ces sous questions nous obtenons des résulatats enrichies.  

Pour ce qui est des RAG modulaires, nous pouvons noter les techniques adaptatives tel que Self-RAG ou encore les techniques itératives. En s'appuiant sur la technique d'augmentation de la requête avec HYDE, il est possible de modifier la réponse et la recherche jusqu'à obtenir une réponse correcte, via un JUGE LLM ou autre mesure. 

Un dernier point concerne l'affinage des modèles conséquents à l'aide de technique tel que LORA. Permettant de réduire le besoin en ressource pour fine tune le modèle générateur.

Références: Listez vos références de manière appropriée (4-5 parmi les meilleures approches)

- 1) Retrieval-Augmented Generation for Large Language Models: A Survey  -> Résume les méthodes RAG avancés et modualaire
- 2) Precise Zero-Shot Dense Retrieval without Relevance Labels -> Présente HYDE
- 3) ARAGOG: Advanced RAG Output Grading   -> Présente la combinaison HYDE + reranking LLM
- 4) Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy  -> présente une méthode itération 



### 4.2. Description de notre méthode 


Description :

Dans un premier temps, nous entraînons un modèle génératif sur le training set pour qu'il puisse répondre de manière précise et pertinente en fonction des passages extraits. Pour cela, nous utilisons la méthode LoRA, qui permet une fine-tuning sur peu de ressources. Par ailleurs, nous avons exploré l'entraînement d'un modèle d'embedding en appliquant une approche contrastive sur des exemples positifs et négatifs. Cependant, cette méthode n'a pas produit les résultats escomptés, nous conduisant à nous concentrer sur d'autres aspects de l'architecture.

Ensuite, nous mettons en œuvre deux techniques distinctes d'augmentation de requêtes en parallèle. D'une part, nous utilisons Hyde pour générer des documents hypothétiques et effectuer une recherche sur ces derniers. D'autre part, nous décomposons la requête initiale en deux ou trois sous-questions grâce à un notre modèle génératif et effectuons une recherche sur ces sous-questions. Nous avons constaté que ces deux méthodes identifient des documents complémentaires en termes de pertinence. Pour exploiter cette synergie, nous combinons les résultats des deux approches. Enfin, nous intégrons un reranking des documents à l'aide du cross-encoder ms-marco-MiniLM-L-6-v.


### 4.3. Implémentation 


##### A) Fine-tuning du modèle génératif avec LORA
Le **fine-tuning du modèle génératif avec LoRA** (*Low-Rank Adaptation*) est une méthode d’adaptation efficace qui réduit le nombre de paramètres à entraîner en insérant des matrices de faible rang dans les couches du modèle pré-entraîné. Cette approche permet de modifier le comportement du modèle sans mettre à jour l’ensemble de ses poids, rendant l'entraînement plus rapide, moins gourmand en mémoire et mieux adapté aux ressources limitées.

In [36]:
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
# Reduis nombre de batch pour reduire le cout en memoire lors du fine-tuning
BATCH_SIZE = 16

model_lora = AutoModelForCausalLM.from_pretrained(
    READER_MODEL_NAME, 
    device_map ="auto"
)

tokenizer_lora = AutoTokenizer.from_pretrained(READER_MODEL_NAME)

Loading checkpoint shards: 100%|██████████| 2/2 [00:04<00:00,  2.31s/it]


In [None]:
pip install peft

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Note: you may need to restart the kernel to use updated packages.


In [9]:
from peft import LoraConfig, get_peft_model

# On identifier les modules cibles 
# On va fine-tune les dernière couches
target_modules = [
    f"layers.{i}.self_attn.qkv_proj" for i in range(26, 32)
] + [
    f"layers.{i}.self_attn.o_proj" for i in range(26, 32)
]

# Configuration de LoRA
lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=target_modules,
    lora_dropout=0.1,
    bias="none"
)

# Appliquer LoRA au modèle
model_lora = get_peft_model(model_lora, lora_config)


On gele les poids que nous allons pas entrainer

In [10]:
# Geler les paramètres principaux
for name, param in model_lora.named_parameters():
    if not "lora" in name:
        param.requires_grad = False


In [11]:
# Vérifier les paramètres entraînables
print("Paramètres entraînables avec LoRA :")
for name, param in model_lora.named_parameters():
    if param.requires_grad:
        print(name)

Paramètres entraînables avec LoRA :
base_model.model.model.layers.26.self_attn.o_proj.lora_A.default.weight
base_model.model.model.layers.26.self_attn.o_proj.lora_B.default.weight
base_model.model.model.layers.26.self_attn.qkv_proj.lora_A.default.weight
base_model.model.model.layers.26.self_attn.qkv_proj.lora_B.default.weight
base_model.model.model.layers.27.self_attn.o_proj.lora_A.default.weight
base_model.model.model.layers.27.self_attn.o_proj.lora_B.default.weight
base_model.model.model.layers.27.self_attn.qkv_proj.lora_A.default.weight
base_model.model.model.layers.27.self_attn.qkv_proj.lora_B.default.weight
base_model.model.model.layers.28.self_attn.o_proj.lora_A.default.weight
base_model.model.model.layers.28.self_attn.o_proj.lora_B.default.weight
base_model.model.model.layers.28.self_attn.qkv_proj.lora_A.default.weight
base_model.model.model.layers.28.self_attn.qkv_proj.lora_B.default.weight
base_model.model.model.layers.29.self_attn.o_proj.lora_A.default.weight
base_model.model

On va maintenant recupérer nos données d'entrainement en utilisant le prompt précédent

In [16]:
# Convertie les indices en données numerique et pas string
train_textids = train["text_ids"].apply(lambda x: [int(i) for i in x.replace("[", "").replace("]", "").split(" ") if i.isdigit()])
# Crée une colonne avec les prompt de chaque question
trainset_prompt = create_prompt_context(train["question"], train_textids)
train["prompt"] = trainset_prompt

Formate nos données d'entrainement pour qu'elles soient utilisable our un model Causal

In [17]:
def format_data(row):
    input_text = row['prompt']
    target_text = row['answer']
    full_text = input_text + target_text
    return pd.Series({"input_text": input_text, "target_text": target_text, "full_text": full_text})

formatted_train = train.apply(format_data, axis=1)

In [18]:
# Initialisation des compteurs
max_tokens = 0

# Parcourir chaque ligne pour analyser les tokens
for idx, row in formatted_train.iterrows():
    tokenized = tokenizer_lora(
        row["full_text"],
        truncation=False,  # Pas de troncature pour capturer toute la longueur
        return_tensors="pt"
    )
    num_tokens = len(tokenized["input_ids"][0])
    
    # Mise à jour du maximum de tokens
    if num_tokens > max_tokens:
        max_tokens = num_tokens

# Affichage du résultat
print(f"Nombre maximum de tokens : {max_tokens}")


Nombre maximum de tokens : 598


In [19]:
def tokenize_data(row):
    # Tokeniser les questions + réponses ensemble pour le modèle causal
    tokens = tokenizer_lora(
        row["full_text"],  # Texte complet (prompt + réponse)
        max_length=600,  # Limite selon le max de token pour éviter les séquences trop longues
        truncation=True,
        padding="max_length"
    )
    tokens["labels"] = tokens["input_ids"].copy()  # Les labels sont identiques aux entrées
    return tokens

# Appliquer la fonction ligne par ligne
tokenized_train = formatted_train.apply(lambda row: tokenize_data(row), axis=1)

In [20]:
from torch.utils.data import DataLoader

train_dataloader = DataLoader(
    tokenized_train,
    shuffle=True,
    batch_size=BATCH_SIZE,
    collate_fn=lambda x: {k: torch.tensor([d[k] for d in x]) for k in x[0]}
)


On passe à l'entrainement

In [21]:
from transformers import AdamW

# On inclut uniquement les paramètres non gelés
optimizer = AdamW(
    [param for param in model_lora.parameters() if param.requires_grad],
    lr=5e-5
)




In [22]:
from transformers import get_scheduler
# Scheduler de taux d'apprentissage (learning rate scheduler) 
# Utile pour ajuster dynamiquement le taux d'apprentissage pendant l'entraînement

num_training_steps = len(train_dataloader) * 3  # 3 époques
lr_scheduler = get_scheduler(
    "linear",
    optimizer=optimizer,
    num_warmup_steps=0,
    num_training_steps=num_training_steps
)


In [23]:
from tqdm import tqdm

model_lora.train()  # Passer le modèle en mode entraînement

progress_bar = tqdm(range(num_training_steps))
torch.cuda.empty_cache()  # Libérer la mémoire inutilisée avant l'entraînement

accumulation_steps = 2  # Divise chaque batch en 2 sous-batches
running_loss = 0.0  # Variable pour suivre la perte cumulée

for epoch in range(3):  # Boucle des époques
    print(f"Époque {epoch + 1}/{3}")
    for i, batch in enumerate(train_dataloader):
        batch = {k: v.to(DEVICE) for k, v in batch.items()}
        outputs = model_lora(**batch)
        loss = outputs.loss
        loss = loss / accumulation_steps  # Diviser la perte pour l'accumulation
        loss.backward()

        running_loss += loss.item()  # Ajouter la perte actuelle à la somme

        if (i + 1) % accumulation_steps == 0 or (i + 1) == len(train_dataloader):  # Après accumulation_steps
            optimizer.step()
            optimizer.zero_grad()

            # Afficher la perte moyenne
            avg_loss = running_loss / accumulation_steps
            print(f"Batch {i + 1}/{len(train_dataloader)} - Loss moyenne : {avg_loss:.4f}")
            running_loss = 0.0  # Réinitialiser la perte cumulée

        progress_bar.update(1)

# Sauvegarde du modèle après l'entraînement
model_lora.save_pretrained("fine_tuned_model")
tokenizer_lora.save_pretrained("fine_tuned_model")


  0%|          | 0/657 [00:00<?, ?it/s]

Époque 1/3


  0%|          | 2/657 [00:28<2:13:55, 12.27s/it]

Batch 2/219 - Loss moyenne : 4.5233


  1%|          | 4/657 [00:32<55:01,  5.06s/it]  

Batch 4/219 - Loss moyenne : 4.7228


  1%|          | 6/657 [00:35<32:44,  3.02s/it]

Batch 6/219 - Loss moyenne : 4.4047


  1%|          | 8/657 [00:38<24:00,  2.22s/it]

Batch 8/219 - Loss moyenne : 4.4222


  2%|▏         | 10/657 [00:41<20:08,  1.87s/it]

Batch 10/219 - Loss moyenne : 4.4738


  2%|▏         | 12/657 [00:44<18:18,  1.70s/it]

Batch 12/219 - Loss moyenne : 4.4994


  2%|▏         | 14/657 [00:47<17:28,  1.63s/it]

Batch 14/219 - Loss moyenne : 3.8028


  2%|▏         | 16/657 [00:50<17:02,  1.59s/it]

Batch 16/219 - Loss moyenne : 4.3346


  3%|▎         | 18/657 [00:53<16:52,  1.58s/it]

Batch 18/219 - Loss moyenne : 3.9375


  3%|▎         | 20/657 [00:56<16:44,  1.58s/it]

Batch 20/219 - Loss moyenne : 4.0348


  3%|▎         | 22/657 [01:00<16:39,  1.57s/it]

Batch 22/219 - Loss moyenne : 4.0068


  4%|▎         | 24/657 [01:03<16:38,  1.58s/it]

Batch 24/219 - Loss moyenne : 3.9408


  4%|▍         | 26/657 [01:06<16:39,  1.58s/it]

Batch 26/219 - Loss moyenne : 3.6354


  4%|▍         | 28/657 [01:09<16:35,  1.58s/it]

Batch 28/219 - Loss moyenne : 3.7012


  5%|▍         | 30/657 [01:12<16:34,  1.59s/it]

Batch 30/219 - Loss moyenne : 3.4117


  5%|▍         | 32/657 [01:15<16:33,  1.59s/it]

Batch 32/219 - Loss moyenne : 3.2354


  5%|▌         | 34/657 [01:19<16:31,  1.59s/it]

Batch 34/219 - Loss moyenne : 3.2838


  5%|▌         | 36/657 [01:22<16:30,  1.60s/it]

Batch 36/219 - Loss moyenne : 3.1354


  6%|▌         | 38/657 [01:25<16:29,  1.60s/it]

Batch 38/219 - Loss moyenne : 3.0109


  6%|▌         | 40/657 [01:28<16:27,  1.60s/it]

Batch 40/219 - Loss moyenne : 2.7015


  6%|▋         | 42/657 [01:31<16:24,  1.60s/it]

Batch 42/219 - Loss moyenne : 2.5704


  7%|▋         | 44/657 [01:35<16:30,  1.62s/it]

Batch 44/219 - Loss moyenne : 2.5515


  7%|▋         | 46/657 [01:38<16:26,  1.62s/it]

Batch 46/219 - Loss moyenne : 2.2592


  7%|▋         | 48/657 [01:41<16:25,  1.62s/it]

Batch 48/219 - Loss moyenne : 2.2297


  8%|▊         | 50/657 [01:44<16:24,  1.62s/it]

Batch 50/219 - Loss moyenne : 1.8918


  8%|▊         | 52/657 [01:48<16:23,  1.63s/it]

Batch 52/219 - Loss moyenne : 1.8101


  8%|▊         | 54/657 [01:51<16:18,  1.62s/it]

Batch 54/219 - Loss moyenne : 1.5949


  9%|▊         | 56/657 [01:54<16:12,  1.62s/it]

Batch 56/219 - Loss moyenne : 1.4054


  9%|▉         | 58/657 [01:57<16:09,  1.62s/it]

Batch 58/219 - Loss moyenne : 1.2492


  9%|▉         | 60/657 [02:00<15:59,  1.61s/it]

Batch 60/219 - Loss moyenne : 1.0164


  9%|▉         | 62/657 [02:04<15:53,  1.60s/it]

Batch 62/219 - Loss moyenne : 0.9319


 10%|▉         | 64/657 [02:07<15:50,  1.60s/it]

Batch 64/219 - Loss moyenne : 0.8539


 10%|█         | 66/657 [02:10<15:45,  1.60s/it]

Batch 66/219 - Loss moyenne : 0.6679


 10%|█         | 68/657 [02:13<15:42,  1.60s/it]

Batch 68/219 - Loss moyenne : 0.6664


 11%|█         | 70/657 [02:16<15:39,  1.60s/it]

Batch 70/219 - Loss moyenne : 0.6185


 11%|█         | 72/657 [02:20<15:35,  1.60s/it]

Batch 72/219 - Loss moyenne : 0.5870


 11%|█▏        | 74/657 [02:23<15:32,  1.60s/it]

Batch 74/219 - Loss moyenne : 0.5840


 12%|█▏        | 76/657 [02:26<15:30,  1.60s/it]

Batch 76/219 - Loss moyenne : 0.5014


 12%|█▏        | 78/657 [02:29<15:28,  1.60s/it]

Batch 78/219 - Loss moyenne : 0.5322


 12%|█▏        | 80/657 [02:33<15:24,  1.60s/it]

Batch 80/219 - Loss moyenne : 0.5488


 12%|█▏        | 82/657 [02:36<15:21,  1.60s/it]

Batch 82/219 - Loss moyenne : 0.5129


 13%|█▎        | 84/657 [02:39<15:19,  1.61s/it]

Batch 84/219 - Loss moyenne : 0.5233


 13%|█▎        | 86/657 [02:42<15:19,  1.61s/it]

Batch 86/219 - Loss moyenne : 0.5187


 13%|█▎        | 88/657 [02:45<15:20,  1.62s/it]

Batch 88/219 - Loss moyenne : 0.4994


 14%|█▎        | 90/657 [02:49<15:23,  1.63s/it]

Batch 90/219 - Loss moyenne : 0.5071


 14%|█▍        | 92/657 [02:52<15:23,  1.63s/it]

Batch 92/219 - Loss moyenne : 0.5105


 14%|█▍        | 94/657 [02:55<15:23,  1.64s/it]

Batch 94/219 - Loss moyenne : 0.5314


 15%|█▍        | 96/657 [02:59<15:18,  1.64s/it]

Batch 96/219 - Loss moyenne : 0.4962


 15%|█▍        | 98/657 [03:02<15:17,  1.64s/it]

Batch 98/219 - Loss moyenne : 0.4808


 15%|█▌        | 100/657 [03:05<15:14,  1.64s/it]

Batch 100/219 - Loss moyenne : 0.5094


 16%|█▌        | 102/657 [03:08<15:17,  1.65s/it]

Batch 102/219 - Loss moyenne : 0.4975


 16%|█▌        | 104/657 [03:12<15:16,  1.66s/it]

Batch 104/219 - Loss moyenne : 0.4638


 16%|█▌        | 106/657 [03:15<15:18,  1.67s/it]

Batch 106/219 - Loss moyenne : 0.4971


 16%|█▋        | 108/657 [03:18<15:16,  1.67s/it]

Batch 108/219 - Loss moyenne : 0.4751


 17%|█▋        | 110/657 [03:22<15:09,  1.66s/it]

Batch 110/219 - Loss moyenne : 0.5001


 17%|█▋        | 112/657 [03:25<15:05,  1.66s/it]

Batch 112/219 - Loss moyenne : 0.5069


 17%|█▋        | 114/657 [03:28<14:58,  1.65s/it]

Batch 114/219 - Loss moyenne : 0.4965


 18%|█▊        | 116/657 [03:32<14:53,  1.65s/it]

Batch 116/219 - Loss moyenne : 0.4917


 18%|█▊        | 118/657 [03:35<14:51,  1.65s/it]

Batch 118/219 - Loss moyenne : 0.5417


 18%|█▊        | 120/657 [03:38<14:44,  1.65s/it]

Batch 120/219 - Loss moyenne : 0.4836


 19%|█▊        | 122/657 [03:42<14:41,  1.65s/it]

Batch 122/219 - Loss moyenne : 0.5229


 19%|█▉        | 124/657 [03:45<14:35,  1.64s/it]

Batch 124/219 - Loss moyenne : 0.5191


 19%|█▉        | 126/657 [03:48<14:29,  1.64s/it]

Batch 126/219 - Loss moyenne : 0.5253


 19%|█▉        | 128/657 [03:51<14:26,  1.64s/it]

Batch 128/219 - Loss moyenne : 0.4572


 20%|█▉        | 130/657 [03:55<14:24,  1.64s/it]

Batch 130/219 - Loss moyenne : 0.4764


 20%|██        | 132/657 [03:58<14:23,  1.64s/it]

Batch 132/219 - Loss moyenne : 0.5536


 20%|██        | 134/657 [04:01<14:23,  1.65s/it]

Batch 134/219 - Loss moyenne : 0.5068


 21%|██        | 136/657 [04:05<14:17,  1.65s/it]

Batch 136/219 - Loss moyenne : 0.4764


 21%|██        | 138/657 [04:08<14:18,  1.65s/it]

Batch 138/219 - Loss moyenne : 0.5164


 21%|██▏       | 140/657 [04:11<14:16,  1.66s/it]

Batch 140/219 - Loss moyenne : 0.5192


 22%|██▏       | 142/657 [04:15<14:14,  1.66s/it]

Batch 142/219 - Loss moyenne : 0.5099


 22%|██▏       | 144/657 [04:18<14:14,  1.67s/it]

Batch 144/219 - Loss moyenne : 0.4966


 22%|██▏       | 146/657 [04:21<14:11,  1.67s/it]

Batch 146/219 - Loss moyenne : 0.5013


 23%|██▎       | 148/657 [04:25<14:08,  1.67s/it]

Batch 148/219 - Loss moyenne : 0.5196


 23%|██▎       | 150/657 [04:28<14:02,  1.66s/it]

Batch 150/219 - Loss moyenne : 0.5101


 23%|██▎       | 152/657 [04:31<14:00,  1.66s/it]

Batch 152/219 - Loss moyenne : 0.5022


 23%|██▎       | 154/657 [04:35<13:57,  1.66s/it]

Batch 154/219 - Loss moyenne : 0.4729


 24%|██▎       | 156/657 [04:38<13:54,  1.66s/it]

Batch 156/219 - Loss moyenne : 0.4756


 24%|██▍       | 158/657 [04:41<13:53,  1.67s/it]

Batch 158/219 - Loss moyenne : 0.4987


 24%|██▍       | 160/657 [04:45<13:51,  1.67s/it]

Batch 160/219 - Loss moyenne : 0.4864


 25%|██▍       | 162/657 [04:48<13:44,  1.67s/it]

Batch 162/219 - Loss moyenne : 0.5069


 25%|██▍       | 164/657 [04:51<13:35,  1.65s/it]

Batch 164/219 - Loss moyenne : 0.4596


 25%|██▌       | 166/657 [04:54<13:28,  1.65s/it]

Batch 166/219 - Loss moyenne : 0.5005


 26%|██▌       | 168/657 [04:58<13:20,  1.64s/it]

Batch 168/219 - Loss moyenne : 0.4684


 26%|██▌       | 170/657 [05:01<13:12,  1.63s/it]

Batch 170/219 - Loss moyenne : 0.4514


 26%|██▌       | 172/657 [05:04<13:07,  1.62s/it]

Batch 172/219 - Loss moyenne : 0.4503


 26%|██▋       | 174/657 [05:07<13:00,  1.62s/it]

Batch 174/219 - Loss moyenne : 0.4700


 27%|██▋       | 176/657 [05:11<12:55,  1.61s/it]

Batch 176/219 - Loss moyenne : 0.4981


 27%|██▋       | 178/657 [05:14<12:48,  1.60s/it]

Batch 178/219 - Loss moyenne : 0.5094


 27%|██▋       | 180/657 [05:17<12:44,  1.60s/it]

Batch 180/219 - Loss moyenne : 0.4865


 28%|██▊       | 182/657 [05:20<12:40,  1.60s/it]

Batch 182/219 - Loss moyenne : 0.4712


 28%|██▊       | 184/657 [05:23<12:36,  1.60s/it]

Batch 184/219 - Loss moyenne : 0.4600


 28%|██▊       | 186/657 [05:27<12:33,  1.60s/it]

Batch 186/219 - Loss moyenne : 0.4618


 29%|██▊       | 188/657 [05:30<12:30,  1.60s/it]

Batch 188/219 - Loss moyenne : 0.4408


 29%|██▉       | 190/657 [05:33<12:27,  1.60s/it]

Batch 190/219 - Loss moyenne : 0.4308


 29%|██▉       | 192/657 [05:36<12:23,  1.60s/it]

Batch 192/219 - Loss moyenne : 0.4729


 30%|██▉       | 194/657 [05:39<12:20,  1.60s/it]

Batch 194/219 - Loss moyenne : 0.4193


 30%|██▉       | 196/657 [05:43<12:17,  1.60s/it]

Batch 196/219 - Loss moyenne : 0.4174


 30%|███       | 198/657 [05:46<12:14,  1.60s/it]

Batch 198/219 - Loss moyenne : 0.4597


 30%|███       | 200/657 [05:49<12:11,  1.60s/it]

Batch 200/219 - Loss moyenne : 0.4735


 31%|███       | 202/657 [05:52<12:07,  1.60s/it]

Batch 202/219 - Loss moyenne : 0.4773


 31%|███       | 204/657 [05:55<12:05,  1.60s/it]

Batch 204/219 - Loss moyenne : 0.4927


 31%|███▏      | 206/657 [05:59<12:01,  1.60s/it]

Batch 206/219 - Loss moyenne : 0.4502


 32%|███▏      | 208/657 [06:02<11:58,  1.60s/it]

Batch 208/219 - Loss moyenne : 0.4827


 32%|███▏      | 210/657 [06:05<11:55,  1.60s/it]

Batch 210/219 - Loss moyenne : 0.4420


 32%|███▏      | 212/657 [06:08<11:52,  1.60s/it]

Batch 212/219 - Loss moyenne : 0.4321


 33%|███▎      | 214/657 [06:11<11:53,  1.61s/it]

Batch 214/219 - Loss moyenne : 0.4923


 33%|███▎      | 216/657 [06:15<11:51,  1.61s/it]

Batch 216/219 - Loss moyenne : 0.4304


 33%|███▎      | 218/657 [06:18<11:48,  1.61s/it]

Batch 218/219 - Loss moyenne : 0.4634


 33%|███▎      | 219/657 [06:19<09:39,  1.32s/it]

Batch 219/219 - Loss moyenne : 0.2421
Époque 2/3


 34%|███▎      | 221/657 [06:22<10:43,  1.48s/it]

Batch 2/219 - Loss moyenne : 0.3936


 34%|███▍      | 223/657 [06:25<11:14,  1.55s/it]

Batch 4/219 - Loss moyenne : 0.4117


 34%|███▍      | 225/657 [06:28<11:29,  1.60s/it]

Batch 6/219 - Loss moyenne : 0.4427


 35%|███▍      | 227/657 [06:32<11:36,  1.62s/it]

Batch 8/219 - Loss moyenne : 0.4873


 35%|███▍      | 229/657 [06:35<11:38,  1.63s/it]

Batch 10/219 - Loss moyenne : 0.4125


 35%|███▌      | 231/657 [06:38<11:41,  1.65s/it]

Batch 12/219 - Loss moyenne : 0.5001


 35%|███▌      | 233/657 [06:42<11:44,  1.66s/it]

Batch 14/219 - Loss moyenne : 0.4352


 36%|███▌      | 235/657 [06:45<11:51,  1.69s/it]

Batch 16/219 - Loss moyenne : 0.4283


 36%|███▌      | 237/657 [06:48<11:53,  1.70s/it]

Batch 18/219 - Loss moyenne : 0.4246


 36%|███▋      | 239/657 [06:52<11:49,  1.70s/it]

Batch 20/219 - Loss moyenne : 0.4916


 37%|███▋      | 241/657 [06:55<11:39,  1.68s/it]

Batch 22/219 - Loss moyenne : 0.4675


 37%|███▋      | 243/657 [06:58<11:31,  1.67s/it]

Batch 24/219 - Loss moyenne : 0.4428


 37%|███▋      | 245/657 [07:02<11:22,  1.66s/it]

Batch 26/219 - Loss moyenne : 0.4317


 38%|███▊      | 247/657 [07:05<11:13,  1.64s/it]

Batch 28/219 - Loss moyenne : 0.4583


 38%|███▊      | 249/657 [07:08<11:07,  1.64s/it]

Batch 30/219 - Loss moyenne : 0.4374


 38%|███▊      | 251/657 [07:11<11:00,  1.63s/it]

Batch 32/219 - Loss moyenne : 0.4293


 39%|███▊      | 253/657 [07:15<10:54,  1.62s/it]

Batch 34/219 - Loss moyenne : 0.4138


 39%|███▉      | 255/657 [07:18<10:52,  1.62s/it]

Batch 36/219 - Loss moyenne : 0.4362


 39%|███▉      | 257/657 [07:21<10:48,  1.62s/it]

Batch 38/219 - Loss moyenne : 0.4016


 39%|███▉      | 259/657 [07:24<10:44,  1.62s/it]

Batch 40/219 - Loss moyenne : 0.3940


 40%|███▉      | 261/657 [07:28<10:41,  1.62s/it]

Batch 42/219 - Loss moyenne : 0.4459


 40%|████      | 263/657 [07:31<10:39,  1.62s/it]

Batch 44/219 - Loss moyenne : 0.4387


 40%|████      | 265/657 [07:34<10:34,  1.62s/it]

Batch 46/219 - Loss moyenne : 0.4323


 41%|████      | 267/657 [07:37<10:31,  1.62s/it]

Batch 48/219 - Loss moyenne : 0.4016


 41%|████      | 269/657 [07:41<10:28,  1.62s/it]

Batch 50/219 - Loss moyenne : 0.4297


 41%|████      | 271/657 [07:44<10:26,  1.62s/it]

Batch 52/219 - Loss moyenne : 0.4178


 42%|████▏     | 273/657 [07:47<10:22,  1.62s/it]

Batch 54/219 - Loss moyenne : 0.4073


 42%|████▏     | 275/657 [07:50<10:22,  1.63s/it]

Batch 56/219 - Loss moyenne : 0.4777


 42%|████▏     | 277/657 [07:54<10:18,  1.63s/it]

Batch 58/219 - Loss moyenne : 0.4294


 42%|████▏     | 279/657 [07:57<10:15,  1.63s/it]

Batch 60/219 - Loss moyenne : 0.3922


 43%|████▎     | 281/657 [08:00<10:15,  1.64s/it]

Batch 62/219 - Loss moyenne : 0.4088


 43%|████▎     | 283/657 [08:03<10:13,  1.64s/it]

Batch 64/219 - Loss moyenne : 0.4301


 43%|████▎     | 285/657 [08:07<10:10,  1.64s/it]

Batch 66/219 - Loss moyenne : 0.4252


 44%|████▎     | 287/657 [08:10<10:10,  1.65s/it]

Batch 68/219 - Loss moyenne : 0.4049


 44%|████▍     | 289/657 [08:13<10:10,  1.66s/it]

Batch 70/219 - Loss moyenne : 0.4350


 44%|████▍     | 291/657 [08:17<10:08,  1.66s/it]

Batch 72/219 - Loss moyenne : 0.4227


 45%|████▍     | 293/657 [08:20<10:08,  1.67s/it]

Batch 74/219 - Loss moyenne : 0.4325


 45%|████▍     | 295/657 [08:23<10:04,  1.67s/it]

Batch 76/219 - Loss moyenne : 0.3821


 45%|████▌     | 297/657 [08:27<09:59,  1.66s/it]

Batch 78/219 - Loss moyenne : 0.4775


 46%|████▌     | 299/657 [08:30<09:52,  1.65s/it]

Batch 80/219 - Loss moyenne : 0.4167


 46%|████▌     | 301/657 [08:33<09:47,  1.65s/it]

Batch 82/219 - Loss moyenne : 0.4735


 46%|████▌     | 303/657 [08:37<09:41,  1.64s/it]

Batch 84/219 - Loss moyenne : 0.4190


 46%|████▋     | 305/657 [08:40<09:36,  1.64s/it]

Batch 86/219 - Loss moyenne : 0.3957


 47%|████▋     | 307/657 [08:43<09:30,  1.63s/it]

Batch 88/219 - Loss moyenne : 0.4204


 47%|████▋     | 309/657 [08:46<09:27,  1.63s/it]

Batch 90/219 - Loss moyenne : 0.4141


 47%|████▋     | 311/657 [08:50<09:23,  1.63s/it]

Batch 92/219 - Loss moyenne : 0.3832


 48%|████▊     | 313/657 [08:53<09:20,  1.63s/it]

Batch 94/219 - Loss moyenne : 0.4431


 48%|████▊     | 315/657 [08:56<09:15,  1.62s/it]

Batch 96/219 - Loss moyenne : 0.3823


 48%|████▊     | 317/657 [08:59<09:11,  1.62s/it]

Batch 98/219 - Loss moyenne : 0.3866


 49%|████▊     | 319/657 [09:03<09:06,  1.62s/it]

Batch 100/219 - Loss moyenne : 0.4239


 49%|████▉     | 321/657 [09:06<09:01,  1.61s/it]

Batch 102/219 - Loss moyenne : 0.4066


 49%|████▉     | 323/657 [09:09<08:59,  1.62s/it]

Batch 104/219 - Loss moyenne : 0.3887


 49%|████▉     | 325/657 [09:12<08:57,  1.62s/it]

Batch 106/219 - Loss moyenne : 0.4197


 50%|████▉     | 327/657 [09:16<08:54,  1.62s/it]

Batch 108/219 - Loss moyenne : 0.3729


 50%|█████     | 329/657 [09:19<08:51,  1.62s/it]

Batch 110/219 - Loss moyenne : 0.3667


 50%|█████     | 331/657 [09:22<08:48,  1.62s/it]

Batch 112/219 - Loss moyenne : 0.4022


 51%|█████     | 333/657 [09:25<08:48,  1.63s/it]

Batch 114/219 - Loss moyenne : 0.3825


 51%|█████     | 335/657 [09:29<08:45,  1.63s/it]

Batch 116/219 - Loss moyenne : 0.4466


 51%|█████▏    | 337/657 [09:32<08:43,  1.64s/it]

Batch 118/219 - Loss moyenne : 0.3984


 52%|█████▏    | 339/657 [09:35<08:41,  1.64s/it]

Batch 120/219 - Loss moyenne : 0.3841


 52%|█████▏    | 341/657 [09:38<08:39,  1.64s/it]

Batch 122/219 - Loss moyenne : 0.4113


 52%|█████▏    | 343/657 [09:42<08:38,  1.65s/it]

Batch 124/219 - Loss moyenne : 0.4130


 53%|█████▎    | 345/657 [09:45<08:37,  1.66s/it]

Batch 126/219 - Loss moyenne : 0.4342


 53%|█████▎    | 347/657 [09:48<08:35,  1.66s/it]

Batch 128/219 - Loss moyenne : 0.3930


 53%|█████▎    | 349/657 [09:52<08:34,  1.67s/it]

Batch 130/219 - Loss moyenne : 0.3807


 53%|█████▎    | 351/657 [09:55<08:29,  1.67s/it]

Batch 132/219 - Loss moyenne : 0.3754


 54%|█████▎    | 353/657 [09:58<08:23,  1.66s/it]

Batch 134/219 - Loss moyenne : 0.4190


 54%|█████▍    | 355/657 [10:02<08:17,  1.65s/it]

Batch 136/219 - Loss moyenne : 0.4079


 54%|█████▍    | 357/657 [10:05<08:10,  1.63s/it]

Batch 138/219 - Loss moyenne : 0.3731


 55%|█████▍    | 359/657 [10:08<08:04,  1.62s/it]

Batch 140/219 - Loss moyenne : 0.3963


 55%|█████▍    | 361/657 [10:11<07:57,  1.61s/it]

Batch 142/219 - Loss moyenne : 0.3853


 55%|█████▌    | 363/657 [10:15<07:52,  1.61s/it]

Batch 144/219 - Loss moyenne : 0.3897


 56%|█████▌    | 365/657 [10:18<07:47,  1.60s/it]

Batch 146/219 - Loss moyenne : 0.3964


 56%|█████▌    | 367/657 [10:21<07:44,  1.60s/it]

Batch 148/219 - Loss moyenne : 0.4049


 56%|█████▌    | 369/657 [10:24<07:40,  1.60s/it]

Batch 150/219 - Loss moyenne : 0.3843


 56%|█████▋    | 371/657 [10:27<07:37,  1.60s/it]

Batch 152/219 - Loss moyenne : 0.3974


 57%|█████▋    | 373/657 [10:31<07:34,  1.60s/it]

Batch 154/219 - Loss moyenne : 0.3731


 57%|█████▋    | 375/657 [10:34<07:31,  1.60s/it]

Batch 156/219 - Loss moyenne : 0.4006


 57%|█████▋    | 377/657 [10:37<07:27,  1.60s/it]

Batch 158/219 - Loss moyenne : 0.4249


 58%|█████▊    | 379/657 [10:40<07:24,  1.60s/it]

Batch 160/219 - Loss moyenne : 0.3897


 58%|█████▊    | 381/657 [10:43<07:21,  1.60s/it]

Batch 162/219 - Loss moyenne : 0.3899


 58%|█████▊    | 383/657 [10:47<07:18,  1.60s/it]

Batch 164/219 - Loss moyenne : 0.3782


 59%|█████▊    | 385/657 [10:50<07:15,  1.60s/it]

Batch 166/219 - Loss moyenne : 0.3766


 59%|█████▉    | 387/657 [10:53<07:11,  1.60s/it]

Batch 168/219 - Loss moyenne : 0.3966


 59%|█████▉    | 389/657 [10:56<07:08,  1.60s/it]

Batch 170/219 - Loss moyenne : 0.3624


 60%|█████▉    | 391/657 [10:59<07:05,  1.60s/it]

Batch 172/219 - Loss moyenne : 0.3876


 60%|█████▉    | 393/657 [11:02<07:02,  1.60s/it]

Batch 174/219 - Loss moyenne : 0.3792


 60%|██████    | 395/657 [11:06<06:59,  1.60s/it]

Batch 176/219 - Loss moyenne : 0.3598


 60%|██████    | 397/657 [11:09<06:55,  1.60s/it]

Batch 178/219 - Loss moyenne : 0.3844


 61%|██████    | 399/657 [11:12<06:52,  1.60s/it]

Batch 180/219 - Loss moyenne : 0.3734


 61%|██████    | 401/657 [11:15<06:49,  1.60s/it]

Batch 182/219 - Loss moyenne : 0.3771


 61%|██████▏   | 403/657 [11:18<06:46,  1.60s/it]

Batch 184/219 - Loss moyenne : 0.3784


 62%|██████▏   | 405/657 [11:22<06:43,  1.60s/it]

Batch 186/219 - Loss moyenne : 0.3645


 62%|██████▏   | 407/657 [11:25<06:40,  1.60s/it]

Batch 188/219 - Loss moyenne : 0.3675


 62%|██████▏   | 409/657 [11:28<06:36,  1.60s/it]

Batch 190/219 - Loss moyenne : 0.3820


 63%|██████▎   | 411/657 [11:31<06:33,  1.60s/it]

Batch 192/219 - Loss moyenne : 0.3712


 63%|██████▎   | 413/657 [11:34<06:30,  1.60s/it]

Batch 194/219 - Loss moyenne : 0.3738


 63%|██████▎   | 415/657 [11:38<06:26,  1.60s/it]

Batch 196/219 - Loss moyenne : 0.3839


 63%|██████▎   | 417/657 [11:41<06:24,  1.60s/it]

Batch 198/219 - Loss moyenne : 0.3134


 64%|██████▍   | 419/657 [11:44<06:20,  1.60s/it]

Batch 200/219 - Loss moyenne : 0.3841


 64%|██████▍   | 421/657 [11:47<06:17,  1.60s/it]

Batch 202/219 - Loss moyenne : 0.3504


 64%|██████▍   | 423/657 [11:51<06:15,  1.61s/it]

Batch 204/219 - Loss moyenne : 0.3911


 65%|██████▍   | 425/657 [11:54<06:14,  1.61s/it]

Batch 206/219 - Loss moyenne : 0.3692


 65%|██████▍   | 427/657 [11:57<06:11,  1.62s/it]

Batch 208/219 - Loss moyenne : 0.3499


 65%|██████▌   | 429/657 [12:00<06:10,  1.62s/it]

Batch 210/219 - Loss moyenne : 0.4164


 66%|██████▌   | 431/657 [12:04<06:09,  1.64s/it]

Batch 212/219 - Loss moyenne : 0.3938


 66%|██████▌   | 433/657 [12:07<06:07,  1.64s/it]

Batch 214/219 - Loss moyenne : 0.3572


 66%|██████▌   | 435/657 [12:10<06:04,  1.64s/it]

Batch 216/219 - Loss moyenne : 0.3505


 67%|██████▋   | 437/657 [12:13<06:03,  1.65s/it]

Batch 218/219 - Loss moyenne : 0.3436


 67%|██████▋   | 438/657 [12:14<04:57,  1.36s/it]

Batch 219/219 - Loss moyenne : 0.2084
Époque 3/3


 67%|██████▋   | 440/657 [12:17<05:30,  1.52s/it]

Batch 2/219 - Loss moyenne : 0.3622


 67%|██████▋   | 442/657 [12:21<05:44,  1.60s/it]

Batch 4/219 - Loss moyenne : 0.3130


 68%|██████▊   | 444/657 [12:24<05:50,  1.65s/it]

Batch 6/219 - Loss moyenne : 0.3652


 68%|██████▊   | 446/657 [12:28<05:48,  1.65s/it]

Batch 8/219 - Loss moyenne : 0.3561


 68%|██████▊   | 448/657 [12:31<05:44,  1.65s/it]

Batch 10/219 - Loss moyenne : 0.3787


 68%|██████▊   | 450/657 [12:34<05:38,  1.64s/it]

Batch 12/219 - Loss moyenne : 0.3732


 69%|██████▉   | 452/657 [12:37<05:33,  1.63s/it]

Batch 14/219 - Loss moyenne : 0.3622


 69%|██████▉   | 454/657 [12:41<05:27,  1.61s/it]

Batch 16/219 - Loss moyenne : 0.3611


 69%|██████▉   | 456/657 [12:44<05:22,  1.61s/it]

Batch 18/219 - Loss moyenne : 0.3594


 70%|██████▉   | 458/657 [12:47<05:19,  1.60s/it]

Batch 20/219 - Loss moyenne : 0.3470


 70%|███████   | 460/657 [12:50<05:15,  1.60s/it]

Batch 22/219 - Loss moyenne : 0.3569


 70%|███████   | 462/657 [12:53<05:12,  1.60s/it]

Batch 24/219 - Loss moyenne : 0.3460


 71%|███████   | 464/657 [12:57<05:08,  1.60s/it]

Batch 26/219 - Loss moyenne : 0.3796


 71%|███████   | 466/657 [13:00<05:05,  1.60s/it]

Batch 28/219 - Loss moyenne : 0.3323


 71%|███████   | 468/657 [13:03<05:02,  1.60s/it]

Batch 30/219 - Loss moyenne : 0.3430


 72%|███████▏  | 470/657 [13:06<04:59,  1.60s/it]

Batch 32/219 - Loss moyenne : 0.3194


 72%|███████▏  | 472/657 [13:09<04:55,  1.60s/it]

Batch 34/219 - Loss moyenne : 0.3299


 72%|███████▏  | 474/657 [13:12<04:52,  1.60s/it]

Batch 36/219 - Loss moyenne : 0.3457


 72%|███████▏  | 476/657 [13:16<04:49,  1.60s/it]

Batch 38/219 - Loss moyenne : 0.3415


 73%|███████▎  | 478/657 [13:19<04:46,  1.60s/it]

Batch 40/219 - Loss moyenne : 0.3849


 73%|███████▎  | 480/657 [13:22<04:43,  1.60s/it]

Batch 42/219 - Loss moyenne : 0.3023


 73%|███████▎  | 482/657 [13:25<04:39,  1.60s/it]

Batch 44/219 - Loss moyenne : 0.3504


 74%|███████▎  | 484/657 [13:28<04:36,  1.60s/it]

Batch 46/219 - Loss moyenne : 0.3580


 74%|███████▍  | 486/657 [13:32<04:33,  1.60s/it]

Batch 48/219 - Loss moyenne : 0.3248


 74%|███████▍  | 488/657 [13:35<04:30,  1.60s/it]

Batch 50/219 - Loss moyenne : 0.3587


 75%|███████▍  | 490/657 [13:38<04:27,  1.60s/it]

Batch 52/219 - Loss moyenne : 0.3382


 75%|███████▍  | 492/657 [13:41<04:23,  1.60s/it]

Batch 54/219 - Loss moyenne : 0.3246


 75%|███████▌  | 494/657 [13:44<04:20,  1.60s/it]

Batch 56/219 - Loss moyenne : 0.3320


 75%|███████▌  | 496/657 [13:48<04:17,  1.60s/it]

Batch 58/219 - Loss moyenne : 0.3296


 76%|███████▌  | 498/657 [13:51<04:14,  1.60s/it]

Batch 60/219 - Loss moyenne : 0.3137


 76%|███████▌  | 500/657 [13:54<04:11,  1.60s/it]

Batch 62/219 - Loss moyenne : 0.3051


 76%|███████▋  | 502/657 [13:57<04:08,  1.60s/it]

Batch 64/219 - Loss moyenne : 0.3341


 77%|███████▋  | 504/657 [14:00<04:04,  1.60s/it]

Batch 66/219 - Loss moyenne : 0.3198


 77%|███████▋  | 506/657 [14:04<04:01,  1.60s/it]

Batch 68/219 - Loss moyenne : 0.2838


 77%|███████▋  | 508/657 [14:07<03:58,  1.60s/it]

Batch 70/219 - Loss moyenne : 0.3446


 78%|███████▊  | 510/657 [14:10<03:55,  1.60s/it]

Batch 72/219 - Loss moyenne : 0.3116


 78%|███████▊  | 512/657 [14:13<03:52,  1.60s/it]

Batch 74/219 - Loss moyenne : 0.3233


 78%|███████▊  | 514/657 [14:16<03:48,  1.60s/it]

Batch 76/219 - Loss moyenne : 0.3126


 79%|███████▊  | 516/657 [14:20<03:45,  1.60s/it]

Batch 78/219 - Loss moyenne : 0.3021


 79%|███████▉  | 518/657 [14:23<03:42,  1.60s/it]

Batch 80/219 - Loss moyenne : 0.3176


 79%|███████▉  | 520/657 [14:26<03:39,  1.60s/it]

Batch 82/219 - Loss moyenne : 0.3164


 79%|███████▉  | 522/657 [14:29<03:36,  1.60s/it]

Batch 84/219 - Loss moyenne : 0.3739


 80%|███████▉  | 524/657 [14:32<03:32,  1.60s/it]

Batch 86/219 - Loss moyenne : 0.3205


 80%|████████  | 526/657 [14:36<03:29,  1.60s/it]

Batch 88/219 - Loss moyenne : 0.3183


 80%|████████  | 528/657 [14:39<03:26,  1.60s/it]

Batch 90/219 - Loss moyenne : 0.3396


 81%|████████  | 530/657 [14:42<03:24,  1.61s/it]

Batch 92/219 - Loss moyenne : 0.3166


 81%|████████  | 532/657 [14:45<03:22,  1.62s/it]

Batch 94/219 - Loss moyenne : 0.3070


 81%|████████▏ | 534/657 [14:49<03:19,  1.62s/it]

Batch 96/219 - Loss moyenne : 0.2894


 82%|████████▏ | 536/657 [14:52<03:17,  1.63s/it]

Batch 98/219 - Loss moyenne : 0.3099


 82%|████████▏ | 538/657 [14:55<03:14,  1.64s/it]

Batch 100/219 - Loss moyenne : 0.2823


 82%|████████▏ | 540/657 [14:58<03:11,  1.64s/it]

Batch 102/219 - Loss moyenne : 0.3388


 82%|████████▏ | 542/657 [15:02<03:09,  1.65s/it]

Batch 104/219 - Loss moyenne : 0.3061


 83%|████████▎ | 544/657 [15:05<03:07,  1.66s/it]

Batch 106/219 - Loss moyenne : 0.2840


 83%|████████▎ | 546/657 [15:08<03:04,  1.66s/it]

Batch 108/219 - Loss moyenne : 0.3104


 83%|████████▎ | 548/657 [15:12<02:59,  1.65s/it]

Batch 110/219 - Loss moyenne : 0.2923


 84%|████████▎ | 550/657 [15:15<02:55,  1.64s/it]

Batch 112/219 - Loss moyenne : 0.2357


 84%|████████▍ | 552/657 [15:18<02:51,  1.63s/it]

Batch 114/219 - Loss moyenne : 0.3290


 84%|████████▍ | 554/657 [15:21<02:47,  1.63s/it]

Batch 116/219 - Loss moyenne : 0.2955


 85%|████████▍ | 556/657 [15:25<02:43,  1.61s/it]

Batch 118/219 - Loss moyenne : 0.3097


 85%|████████▍ | 558/657 [15:28<02:39,  1.61s/it]

Batch 120/219 - Loss moyenne : 0.2997


 85%|████████▌ | 560/657 [15:31<02:35,  1.60s/it]

Batch 122/219 - Loss moyenne : 0.2987


 86%|████████▌ | 562/657 [15:34<02:32,  1.60s/it]

Batch 124/219 - Loss moyenne : 0.2853


 86%|████████▌ | 564/657 [15:37<02:28,  1.60s/it]

Batch 126/219 - Loss moyenne : 0.3285


 86%|████████▌ | 566/657 [15:41<02:25,  1.60s/it]

Batch 128/219 - Loss moyenne : 0.3398


 86%|████████▋ | 568/657 [15:44<02:22,  1.60s/it]

Batch 130/219 - Loss moyenne : 0.3003


 87%|████████▋ | 570/657 [15:47<02:19,  1.60s/it]

Batch 132/219 - Loss moyenne : 0.2954


 87%|████████▋ | 572/657 [15:50<02:16,  1.60s/it]

Batch 134/219 - Loss moyenne : 0.3401


 87%|████████▋ | 574/657 [15:53<02:12,  1.60s/it]

Batch 136/219 - Loss moyenne : 0.3472


 88%|████████▊ | 576/657 [15:57<02:09,  1.60s/it]

Batch 138/219 - Loss moyenne : 0.3255


 88%|████████▊ | 578/657 [16:00<02:06,  1.60s/it]

Batch 140/219 - Loss moyenne : 0.3050


 88%|████████▊ | 580/657 [16:03<02:03,  1.60s/it]

Batch 142/219 - Loss moyenne : 0.2883


 89%|████████▊ | 582/657 [16:06<02:00,  1.60s/it]

Batch 144/219 - Loss moyenne : 0.2685


 89%|████████▉ | 584/657 [16:09<01:56,  1.60s/it]

Batch 146/219 - Loss moyenne : 0.2920


 89%|████████▉ | 586/657 [16:13<01:53,  1.60s/it]

Batch 148/219 - Loss moyenne : 0.2934


 89%|████████▉ | 588/657 [16:16<01:50,  1.60s/it]

Batch 150/219 - Loss moyenne : 0.2906


 90%|████████▉ | 590/657 [16:19<01:47,  1.60s/it]

Batch 152/219 - Loss moyenne : 0.3082


 90%|█████████ | 592/657 [16:22<01:43,  1.60s/it]

Batch 154/219 - Loss moyenne : 0.3056


 90%|█████████ | 594/657 [16:25<01:40,  1.60s/it]

Batch 156/219 - Loss moyenne : 0.2966


 91%|█████████ | 596/657 [16:29<01:37,  1.60s/it]

Batch 158/219 - Loss moyenne : 0.3101


 91%|█████████ | 598/657 [16:32<01:34,  1.60s/it]

Batch 160/219 - Loss moyenne : 0.3292


 91%|█████████▏| 600/657 [16:35<01:31,  1.61s/it]

Batch 162/219 - Loss moyenne : 0.3347


 92%|█████████▏| 602/657 [16:38<01:28,  1.62s/it]

Batch 164/219 - Loss moyenne : 0.3104


 92%|█████████▏| 604/657 [16:42<01:25,  1.62s/it]

Batch 166/219 - Loss moyenne : 0.2948


 92%|█████████▏| 606/657 [16:45<01:22,  1.62s/it]

Batch 168/219 - Loss moyenne : 0.3305


 93%|█████████▎| 608/657 [16:48<01:19,  1.62s/it]

Batch 170/219 - Loss moyenne : 0.2856


 93%|█████████▎| 610/657 [16:51<01:16,  1.63s/it]

Batch 172/219 - Loss moyenne : 0.3143


 93%|█████████▎| 612/657 [16:55<01:13,  1.64s/it]

Batch 174/219 - Loss moyenne : 0.3013


 93%|█████████▎| 614/657 [16:58<01:10,  1.64s/it]

Batch 176/219 - Loss moyenne : 0.3138


 94%|█████████▍| 616/657 [17:01<01:07,  1.65s/it]

Batch 178/219 - Loss moyenne : 0.3051


 94%|█████████▍| 618/657 [17:05<01:04,  1.66s/it]

Batch 180/219 - Loss moyenne : 0.3025


 94%|█████████▍| 620/657 [17:08<01:02,  1.68s/it]

Batch 182/219 - Loss moyenne : 0.3168


 95%|█████████▍| 622/657 [17:11<00:59,  1.69s/it]

Batch 184/219 - Loss moyenne : 0.2805


 95%|█████████▍| 624/657 [17:15<00:55,  1.68s/it]

Batch 186/219 - Loss moyenne : 0.2675


 95%|█████████▌| 626/657 [17:18<00:52,  1.68s/it]

Batch 188/219 - Loss moyenne : 0.3409


 96%|█████████▌| 628/657 [17:21<00:48,  1.66s/it]

Batch 190/219 - Loss moyenne : 0.2894


 96%|█████████▌| 630/657 [17:25<00:44,  1.65s/it]

Batch 192/219 - Loss moyenne : 0.3004


 96%|█████████▌| 632/657 [17:28<00:40,  1.63s/it]

Batch 194/219 - Loss moyenne : 0.2812


 96%|█████████▋| 634/657 [17:31<00:37,  1.63s/it]

Batch 196/219 - Loss moyenne : 0.3138


 97%|█████████▋| 636/657 [17:34<00:34,  1.62s/it]

Batch 198/219 - Loss moyenne : 0.2650


 97%|█████████▋| 638/657 [17:38<00:30,  1.61s/it]

Batch 200/219 - Loss moyenne : 0.2734


 97%|█████████▋| 640/657 [17:41<00:27,  1.60s/it]

Batch 202/219 - Loss moyenne : 0.2580


 98%|█████████▊| 642/657 [17:44<00:24,  1.60s/it]

Batch 204/219 - Loss moyenne : 0.2882


 98%|█████████▊| 644/657 [17:47<00:20,  1.60s/it]

Batch 206/219 - Loss moyenne : 0.2844


 98%|█████████▊| 646/657 [17:50<00:17,  1.60s/it]

Batch 208/219 - Loss moyenne : 0.3002


 99%|█████████▊| 648/657 [17:54<00:14,  1.60s/it]

Batch 210/219 - Loss moyenne : 0.3010


 99%|█████████▉| 650/657 [17:57<00:11,  1.60s/it]

Batch 212/219 - Loss moyenne : 0.2921


 99%|█████████▉| 652/657 [18:00<00:07,  1.60s/it]

Batch 214/219 - Loss moyenne : 0.2719


100%|█████████▉| 654/657 [18:03<00:04,  1.60s/it]

Batch 216/219 - Loss moyenne : 0.3066


100%|█████████▉| 656/657 [18:06<00:01,  1.60s/it]

Batch 218/219 - Loss moyenne : 0.2738


100%|██████████| 657/657 [18:07<00:00,  1.31s/it]

Batch 219/219 - Loss moyenne : 0.1269


('fine_tuned_model/tokenizer_config.json',
 'fine_tuned_model/special_tokens_map.json',
 'fine_tuned_model/tokenizer.json')

In [24]:
print(loss)

tensor(0.2538, device='cuda:0', grad_fn=<DivBackward0>)


Chargement du modèle fine tuned

In [37]:
from peft import PeftModel

model_lora = PeftModel.from_pretrained(model_lora, "fine_tuned_model")
tokenizer_lora = AutoTokenizer.from_pretrained("fine_tuned_model")

In [38]:
LORA_LLM = pipeline(
    model=model_lora,
    tokenizer=tokenizer_lora,
    task="text-generation",
    do_sample=True,
    temperature=0.2, # Température basse pour la génération
    repetition_penalty=1.1,
    return_full_text=False,
    max_new_tokens=32,
)

The model 'PeftModel' is not supported for text-generation. Supported models are ['BartForCausalLM', 'BertLMHeadModel', 'BertGenerationDecoder', 'BigBirdForCausalLM', 'BigBirdPegasusForCausalLM', 'BioGptForCausalLM', 'BlenderbotForCausalLM', 'BlenderbotSmallForCausalLM', 'BloomForCausalLM', 'CamembertForCausalLM', 'LlamaForCausalLM', 'CodeGenForCausalLM', 'CohereForCausalLM', 'CpmAntForCausalLM', 'CTRLLMHeadModel', 'Data2VecTextForCausalLM', 'DbrxForCausalLM', 'ElectraForCausalLM', 'ErnieForCausalLM', 'FalconForCausalLM', 'FalconMambaForCausalLM', 'FuyuForCausalLM', 'GemmaForCausalLM', 'Gemma2ForCausalLM', 'GitForCausalLM', 'GlmForCausalLM', 'GPT2LMHeadModel', 'GPT2LMHeadModel', 'GPTBigCodeForCausalLM', 'GPTNeoForCausalLM', 'GPTNeoXForCausalLM', 'GPTNeoXJapaneseForCausalLM', 'GPTJForCausalLM', 'GraniteForCausalLM', 'GraniteMoeForCausalLM', 'JambaForCausalLM', 'JetMoeForCausalLM', 'LlamaForCausalLM', 'MambaForCausalLM', 'Mamba2ForCausalLM', 'MarianForCausalLM', 'MBartForCausalLM', 'Mega

##### B) Modèle de reranking 

Nous avons également utilisé du reranking. Nous avons utilisé le cross-encoder MiniLM.

In [39]:
# Chargement du tokenizer et du modèle LLM open source
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer_rerank =  AutoTokenizer.from_pretrained("cross-encoder/ms-marco-MiniLM-L-6-v2")
model_rerank = AutoModelForSequenceClassification.from_pretrained("cross-encoder/ms-marco-MiniLM-L-6-v2")
model_rerank.eval()  # Passer en mode évaluation

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(30522, 384, padding_idx=0)
      (position_embeddings): Embedding(512, 384)
      (token_type_embeddings): Embedding(2, 384)
      (LayerNorm): LayerNorm((384,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-5): 6 x BertLayer(
          (attention): BertAttention(
            (self): BertSdpaSelfAttention(
              (query): Linear(in_features=384, out_features=384, bias=True)
              (key): Linear(in_features=384, out_features=384, bias=True)
              (value): Linear(in_features=384, out_features=384, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=384, out_features=384, bias=True)
              (LayerNorm): LayerNorm((384,), eps=1e-1

In [40]:
import torch
import numpy as np

def rerank_with_minilm(question, passage_indices, corpus, model, tokenizer, top_k=4):
    
    passages = [corpus[idx] for idx in passage_indices]
    # Construire les paires (question, passage)
    pairs = [(question, passage) for passage in passages]
    
    # Tokenisation des paires
    tokenized_inputs = tokenizer(
        [pair[0] for pair in pairs],
        [pair[1] for pair in pairs],
        padding=True,
        truncation=True,
        max_length=512,
        return_tensors="pt"
    ).to(model.device)
    
    # Générer les scores par le modèle
    with torch.no_grad():
        outputs = model(**tokenized_inputs)
        scores = outputs.logits.squeeze(-1).cpu().numpy()  # Scores de pertinence

    # Associer les scores avec les indices globaux des passages
    ranked_indices = sorted(
        zip(passage_indices, scores), key=lambda x: x[1], reverse=True
    )
    
    # Retourner les indices globaux des top_k passages
    return [index for index, score in ranked_indices[:top_k]]


##### C) Méthode de division de la requête : Sub-queries

Création des sous-questions

In [41]:
#llm_subquerie =  pipeline("text-generation", model=model_reader,tokenizer=tokenizer_reader)

In [42]:
import re

def generate_subqueries(query, llm, num_queries=3):
    
    subqueries = []

    if len(query) < 40:
        num_queries -= 1
    
    prompt = f"Your task is only to divide this question [{query}] in maximum {num_queries} differents shorts subquestions names n1,n2 and n3."
    response = llm(prompt, max_new_tokens=100)
    
    subqueries= response[0]["generated_text"].strip()
    subq = re.findall(r"n\d+:\s*(.*?)(?=\n|$)", subqueries)
    if subq ==[]:
        subq = subqueries
    return subq[:num_queries]

In [43]:
import json

#Val
#sub_val = []

# for question in val["question"]:
#     subqueries = generate_subqueries(question, llm_subquerie, num_queries=3)
#     sub_val.append(subqueries)

# # sauvegarde
# with open('sub_val.json', 'w', encoding='utf-8') as f:
#     json.dump(sub_val, f, ensure_ascii=False, indent=4)

#Test 
#sub_test = []

# for question in test["question"]:
#     subqueries = generate_subqueries(question, llm_subquerie, num_queries=3)
#     sub_test.append(subqueries)

# # sauvegarde
# with open('sub_test.json', 'w', encoding='utf-8') as f:
#     json.dump(sub_test, f, ensure_ascii=False, indent=4)


Chargement des sous-questions sauvegardés

In [44]:
with open('sub_val.json', 'r', encoding='utf-8') as f:
    sub_val = json.load(f)

    
with open('sub_test.json', 'r', encoding='utf-8') as f:
    sub_test = json.load(f)

Exemple

In [45]:
sub_val[1]

['What is the core structure of carbapenems?',
 'How does the side chain of carbapenems differ from penicillins?',
 'What functional groups are present in carbapenems that are not in penicillins?']

Recherche avec les sous questions

In [46]:
from collections import Counter
from itertools import chain

def select_best_documents(results,k):
    
    # occurrences de chaque document
    doc_counts = Counter(results)
    
    # vote majoritaire
    sorted_docs = sorted(doc_counts.items(), key=lambda x: (-x[1], x[0]))  # tri par fréquence, puis par indice
    top_docs = [doc[0] for doc in sorted_docs[:k]]

    return top_docs


In [47]:
def retrieve_passages_subq(questions: list, vector_index: faiss.IndexFlatIP, k: int,
                           embedding_model_tokenizer, embedding_model):
   
    all_indices = []

    for subqueries in questions:
        #subqueries = generate_subqueries(question, llm_subquerie, num_queries = 3)
        results = []
        for subquery in subqueries:
            
            encoded_sub_query = encode_sequences([subquery], embedding_model_tokenizer, embedding_model)
            encoded_sub_query = encoded_sub_query.cpu().numpy()
        
            
            dists, idx = vector_index.search(encoded_sub_query, k)
            
            results.append(idx[0].tolist())
        
        results = list(chain.from_iterable(results))
        
        best_indices = select_best_documents(results,k)
        
        all_indices.append(best_indices)

    return all_indices

##### D) Augmentation de la recherche avec Hyde 

In [48]:
prompt_in_chat_format_rewrite = [
    {
        "role": "system",
        "content": """Using only the information provided in the context, answer the question.""",
    },
    {
        "role": "user",
        "content": """Context:
{context}
---
Here is the question you need to develop.

Original Question: {question}""",
    },
]

RAG_PROMPT_TEMPLATE_REWRITE = tokenizer_reader.apply_chat_template(
    prompt_in_chat_format_rewrite, tokenize=False, add_generation_prompt=True
)

In [49]:
def retrieve_passages_hyde(questions: list, vector_index: faiss.IndexFlatIP, k: int,
                           embedding_model_tokenizer, embedding_model, corpus):
    
    all_indices = []

    for question in questions:
        
        # encodage de la requête
        encoded_query = encode_sequences([question], embedding_model_tokenizer, embedding_model)
        encoded_query = encoded_query.cpu().numpy()
        encoded_query /= np.linalg.norm(encoded_query, axis=1, keepdims=True)

        # Recherche initiale dans FAISS
        dists, indices = vector_index.search(encoded_query, k)
        context = " ".join([corpus[i] for i in indices[0]] if isinstance(corpus, list) else corpus.iloc[indices[0]].tolist())
        
        # réécriture de la question avec HYDE
        question_rw = RAG_PROMPT_TEMPLATE_REWRITE.format(
            question=question,
            context=context
        )
        pred_rw = READER_LLM(question_rw)[0]["generated_text"]
        
        question_final =  pred_rw.strip() + question 
        
        # encodage du document hypothétique
        encoded_hypothetical = encode_sequences([question_final], embedding_model_tokenizer, embedding_model)
        encoded_hypothetical = encoded_hypothetical.cpu().numpy()
        

        # recherche finale dans l'index FAISS
        dists, idx = vector_index.search(encoded_hypothetical, k)
        
        all_indices.append(idx.tolist()[0])

    return all_indices


##### E) Combinaison des documents de Hyde et Sub-queries

In [50]:
from collections import defaultdict

# Combine deux listes en préservant l'ordre et en favorisant les résultats d'une liste via des pondérations.
def combine_lists_preserve_order_with_weights(list1, list2, k, weight1=1.0, weight2=1.0):
    
    scores = defaultdict(float)
    
    for rank, idx in enumerate(list1):
        scores[idx] += weight1 * (1 / (rank + 1))  
    
    for rank, idx in enumerate(list2):
        scores[idx] += weight2 * (1 / (rank + 1))  
    
    # tri des indices par score décroissant
    sorted_indices = sorted(scores.items(), key=lambda x: -x[1])
    
    top_indices = [idx for idx, score in sorted_indices[:k]]
    
    return top_indices


##### F) Implémentation complète 

In [51]:
def retrieve_passages_combined(questions,subs, vector_index, k, embedding_model_tokenizer, embedding_model, corpus,
                               gen_tokenizer, gen_model, model_rerank, tokenizer_rerank,n=10):
    all_indices = []

    for question,subqueries in zip(questions,subs):
        
        # Méthode HYDE
        hyde_indices = retrieve_passages_hyde([question], vector_index, n, embedding_model_tokenizer, embedding_model, corpus)
        
        # Méthode Sub-Q
        subq_indices = retrieve_passages_subq([subqueries], vector_index, n, embedding_model_tokenizer, embedding_model)
        
        # Combiner les résultats
        combined_results = combine_lists_preserve_order_with_weights(hyde_indices[0], subq_indices[0], n,weight1=1.5, weight2=1.0)
        
        #Reranking -> top k
        rerank_indices = rerank_with_minilm(question, combined_results, corpus, model_rerank, tokenizer_rerank, top_k=4)

        
        all_indices.append(rerank_indices)

    return all_indices


### 4.4. Évaluation 


Retrieve

In [52]:
best_4_ids = retrieve_passages_combined(val["question"],sub_val, index, 4, tokenizer, model, text["text"],tokenizer_reader, model_reader, model_rerank, tokenizer_rerank)

You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset


In [55]:
precisions_4 = compute_precision_at_k(val['text_ids'], best_4_ids)
recall_4 = compute_recall_at_k(val['text_ids'], best_4_ids)
print(f"Precision@4: {precisions_4}")
print(f"Recall@4: {recall_4}")

Precision@4: 0.498
Recall@4: 0.7116666666666667


Prompt

In [56]:
eval_promt= create_prompt_context(val["question"], best_4_ids)

In [57]:
set_questions = [ [eval_promt,4]]

BLEU-2

In [58]:
res = evaluate_rag(val,set_questions, LORA_LLM)

Porcessing k = 4


The hypothesis contains 0 counts of 2-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()
The hypothesis contains 0 counts of 3-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()
The hypothesis contains 0 counts of 4-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()


In [61]:
print(f"Bleu-2 = {res[0][2]}")

Bleu-2 = 0.29649959055100494


### 4.5. Analyse 
#### 4.5.1. Avantages/limites/Erreurs types 



Notre architecture pour la recherche n'a pas réussi à surpasser significativement le modèle baseline.

Le prompt du modèle génératif semble pertinent en augmentant significativement les performances au départ de nos recherches. Le fine-tuning a présenté là aussi une légère amélioration. Il nous semble claire que le goulot d'étranglement réside dans le score de précision qui est très faible. En mettant un k à 4, nous augmentons le rappel mais ajoutant beaucoup de bruits à cause d'une précision faible.  

Bien que nous ayons implémenté des techniques visant à enrichir la recherche en obtenant des documents pertinents différents de ceux identifiés par la baseline, nous n'avons pas su combiner ces approches de manière optimale pour améliorer le score de précision.  


#### 4.5.2. Améliorations potentielles




Pour réduire l'impacte d'une faible précision, il peut être pertinent d'implémenter un juge entrainé sur le training set pour déterminer si la réponse et suffisante. Et ainsi implémenter une itération sur la recherche et génération. Nous avons essayer d'utiliser le modèle génératifs sans affinage comme juge mais il n'était pas performant.

Une piste d'amélioration pourrait être un entraînement end-to-end, intégrant à la fois le modèle générant les documents hypothétiques et le modèle d'embedding, afin d'orienter de manière optimale la génération et l'embedding. 

