### Installation des dépendences


In [1]:
!pip install langchain langchain-community langchain-openai langchain-anthropic pypdf faiss-gpu transformers sentence-transformers faiss-cpu transformers  rank-bm25 datasets bert-score  evaluate rouge_score
!pip install --quiet "accelerate>=0.26.0" "transformers>=4.33.0" bitsandbytes


Collecting langchain-community
  Downloading langchain_community-0.3.14-py3-none-any.whl.metadata (2.9 kB)
Collecting langchain-openai
  Downloading langchain_openai-0.3.0-py3-none-any.whl.metadata (2.7 kB)
Collecting langchain-anthropic
  Downloading langchain_anthropic-0.3.1-py3-none-any.whl.metadata (2.3 kB)
Collecting pypdf
  Downloading pypdf-5.1.0-py3-none-any.whl.metadata (7.2 kB)
Collecting faiss-gpu
  Downloading faiss_gpu-1.7.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (1.4 kB)
Collecting faiss-cpu
  Downloading faiss_cpu-1.9.0.post1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.4 kB)
Collecting rank-bm25
  Downloading rank_bm25-0.2.2-py3-none-any.whl.metadata (3.2 kB)
Collecting datasets
  Downloading datasets-3.2.0-py3-none-any.whl.metadata (20 kB)
Collecting bert-score
  Downloading bert_score-0.3.13-py3-none-any.whl.metadata (15 kB)
Collecting evaluate
  Downloading evaluate-0.4.3-py3-none-any.whl.metadata (9.2 kB)
Collec

In [2]:
import pandas as pd
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
import torch
from sentence_transformers import SentenceTransformer
from rank_bm25 import BM25Okapi
import faiss
from google.colab import drive


drive.mount('/content/drive')

Mounted at /content/drive


###Chargement du dataset

In [3]:
from datasets import load_dataset
import json

data_dir = "/content/drive/MyDrive/fquad/train.json"
with open(data_dir, "r", encoding="utf-8") as f:
    dataset = json.load(f)


In [4]:
for article in dataset["data"]:
    for paragraph in article["paragraphs"]:
        context = paragraph["context"]  # Contexte du paragraphe
        for qa in paragraph["qas"]:
            question = qa["question"]  # Question
            answers = [ans["text"] for ans in qa["answers"]]  # Toutes les réponses associées

            # Affichage des résultats
            print("Contexte :", context)
            print("Question :", question)
            print("Réponses :", answers)
            print("-" * 50)

[1;30;43mLe flux de sortie a été tronqué et ne contient que les 5000 dernières lignes.[0m
Contexte : Après l'échec électoral d'Oldham, Churchill cherche une autre occasion de faire progresser sa carrière. Le 12 octobre 1899, la seconde guerre des Boers entre la Grande-Bretagne et les républiques boers éclate. Il obtient une commission pour agir en tant que correspondant de guerre pour le Morning Post avec un salaire de 250 £ par mois. Il a hâte de naviguer sur le même bateau que le nouveau commandant britannique, Redvers Buller. Après quelques semaines dans les zones exposées, il accompagne une expédition d'éclaireurs dans un train blindé, au cours de laquelle il est capturé le 15 novembre par les hommes du raid dirigé par Piet Joubert et Louis Botha sur la colonie du Natal, et envoyé dans un camp de prisonniers de guerre à Pretoria. Son attitude pendant l'embuscade du train fait évoquer une éventuelle obtention de la Croix de Victoria, plus haute distinction de la Grande-Bretagne dé

### Préprocessing (chunk)

In [5]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,  # taille maximale du chunk (en caractères)
    chunk_overlap=100,  # overlap pour conserver le contexte
    separators=["\n\n", "\n", ".", "!", "?", ",", " ", ""]
)

In [7]:
def chunk_text(text, chunk_size=300, overlap=50):
    """
    Découpe un texte en plusieurs segments (chunks) d'environ chunk_size mots,
    avec un chevauchement (overlap) d'un certain nombre de mots entre deux segments.

    :param text: str, le texte à découper
    :param chunk_size: int, nombre de mots par chunk
    :param overlap: int, nombre de mots qui se chevauchent entre deux chunks
    :return: list of str, la liste des chunks
    """
    words = text.split()
    chunks = []
    current_start = 0

    # On boucle tant qu'il reste des mots à prendre
    while current_start < len(words):
        # Récupération d'un segment de taille chunk_size
        chunk_words = words[current_start : current_start + chunk_size]
        # Conversion en chaîne de caractères
        chunk_str = " ".join(chunk_words)
        chunks.append(chunk_str)

        # Avance du pointeur de chunk_size - overlap
        # (ainsi, on a overlap mots communs avec le chunk précédent)
        current_start += (chunk_size - overlap)

        # Si l'overlap est trop grand, on s’assure de ne pas reculer
        if current_start < 0:
            current_start = 0

    return chunks


##Initialisation du Modele et du Tokenizer

In [8]:
HF_TOKEN = "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"

In [9]:
model_name = "mistralai/Mistral-7B-Instruct-v0.1"
quant_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4"
)



tokenizer = AutoTokenizer.from_pretrained(model_name,token=HF_TOKEN)
model = AutoModelForCausalLM.from_pretrained(
    "mistralai/Mistral-7B-Instruct-v0.1",
    quantization_config=quant_config,
    device_map="auto",
    torch_dtype=torch.float16,
    token=HF_TOKEN
)





tokenizer_config.json:   0%|          | 0.00/2.10k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/493k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.80M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/414 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/25.1k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/9.94G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/4.54G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

###Pour charger MistralAI localement

In [None]:
# Chemin local vers le modèle téléchargé
local_model_path = "path/to/local/model"

# Configuration pour la quantification 4-bit
quant_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4"
)

# Charger le tokenizer depuis le chemin local
tokenizer = AutoTokenizer.from_pretrained(local_model_path)

# Charger le modèle depuis le chemin local avec configuration de quantification
model = AutoModelForCausalLM.from_pretrained(
    local_model_path,
    quantization_config=quant_config,
    device_map="auto",        # Permet de mapper automatiquement le modèle sur les GPU disponibles
    torch_dtype=torch.float16 # Précision du calcul
)

print("Modèle et tokenizer chargés avec succès depuis le chemin local !")

#No Preprocessing Temperature = 0.1

In [10]:
# Charger le premier contexte et ses questions
context = dataset["data"][0]["paragraphs"][0]["context"]
questions = [qa["question"] for qa in dataset["data"][0]["paragraphs"][0]["qas"]]

# Fonction pour traiter chaque question avec le même contexte
def process_questions(context, questions, split_texts, method="early_chunking", top_k=5):
    responses = {}
    # Traiter chaque question
    for idx, question in enumerate(questions):
        # Construire le prompt pour le LLM
        prompt = f"""
        Voici des extraits pertinents :

        {context}

        Question : {question}

        Développe une réponse courte en français pertinente sans dépasser les 150 mots.
        Évite les répétitions et ne dépasse pas le nombre de mots.
        La réponse doit être dans la même langue que la question.
        J'insiste respecte le nombre de mots donc je veux des réponses les plus courte.

        Réponse :
        """

        # Envoyer au modèle LLM
        inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
        outputs = model.generate(
            **inputs,
            max_new_tokens=150,  # Longueur max
            temperature=0.1,
            top_p=0.9,
            top_k=50,
            do_sample=True,
        )

        # Décoder et nettoyer la réponse
        response = tokenizer.decode(outputs[0], skip_special_tokens=True)
        cleaned_response = response.split("Réponse :")[-1].strip()
        responses[f"response_q{idx + 1}"] = cleaned_response

    return responses

# Tester la fonction sur le premier contexte et les questions associées
split_texts = [context]  # Pas de découpage dans cet exemple
all_responses = process_questions(context, questions, split_texts)

for idx, question in enumerate(questions):
    response_key = f"response_q{idx + 1}"
    response = all_responses[response_key]
    print(f"Question {idx + 1}: {question}")
    print(f"Réponse {idx + 1}: {response.strip()}")
    print("-" * 50)





Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


Question 1: Quel astronome a émit l'idée en premier d'une planète entre les orbites de Mars et Jupiter ?
Réponse 1: L'idée d'une planète entre les orbites de Mars et Jupiter fut proposée pour la première fois par Johann Elert Bode en 1768.
--------------------------------------------------
Question 2: Quel astronome découvrit Uranus ?
Réponse 2: L'astronome qui découvrit Uranus était William Herschel.
--------------------------------------------------
Question 3: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse 3: Les vingt-quatre astronomes n'ont pas découvert Cérès, mais ont trouvé plusieurs autres astéroïdes.
--------------------------------------------------
Question 4: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse 4: Les vingt-quatre astronomes n'ont pas découvert Cérès, mais ont trouvé plusieurs autres astéroïdes.
--------------------------------------------------


In [11]:
from sklearn.metrics import f1_score
import string
from bert_score import score
import evaluate
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction

bertscore = evaluate.load("bertscore")

def calculate_bleu(generated_answer, reference_answer):
    reference_tokens = reference_answer.split()
    generated_tokens = generated_answer.split()
    smoothing = SmoothingFunction().method1  # Pour éviter les problèmes de division par 0
    score = sentence_bleu([reference_tokens], generated_tokens, smoothing_function=smoothing)
    return score

rouge = evaluate.load("rouge")

def calculate_rouge(generated_answer, reference_answer):
    results = rouge.compute(predictions=[generated_answer], references=[reference_answer])
    return results  # Contient ROUGE-1, ROUGE-2, ROUGE-L7

def calculate_bertscore(generated_answer, reference_answer, lang="fr"):
    P, R, F1 = score([generated_answer], [reference_answer], lang=lang)
    return float(F1.mean())

def normalize_text(text):
    """
    Nettoie le texte pour une comparaison équitable.
    """
    return ''.join([c.lower() for c in text if c not in string.punctuation]).strip()

def calculate_exact_match(predicted, reference):
    """
    Calcule si les deux réponses sont identiques.
    """
    return normalize_text(predicted) == normalize_text(reference)

def calculate_f1(predicted, reference):
    """
    Calcule le F1 score entre les mots de la réponse générée et ceux de la réponse attendue.
    """
    pred_tokens = normalize_text(predicted).split()
    ref_tokens = normalize_text(reference).split()

    common_tokens = set(pred_tokens) & set(ref_tokens)
    if not common_tokens:
        return 0.0

    precision = len(common_tokens) / len(pred_tokens)
    recall = len(common_tokens) / len(ref_tokens)
    f1 = 2 * (precision * recall) / (precision + recall)
    return f1


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Downloading builder script:   0%|          | 0.00/7.95k [00:00<?, ?B/s]

Downloading builder script:   0%|          | 0.00/6.27k [00:00<?, ?B/s]

In [12]:
# Limiter l'évaluation au premier contexte et ses questions
first_paragraph = dataset["data"][0]["paragraphs"][0]
reference_answers = [qa["answers"][0]["text"] for qa in first_paragraph["qas"]]  # Réponses attendues
questions = [qa["question"] for qa in first_paragraph["qas"]]  # Questions associées

# Évaluer uniquement sur les réponses correspondantes
for idx, (question, reference_answer) in enumerate(zip(questions, reference_answers)):
    generated_answer = all_responses.get(f"response_q{idx + 1}", "")

    # Calcul des métriques
    em = calculate_exact_match(generated_answer, reference_answer)
    f1 = calculate_f1(generated_answer, reference_answer)
    bert = calculate_bertscore(generated_answer, reference_answer, lang="fr")
    rouge_scores = calculate_rouge(generated_answer, reference_answer)
    bleu = calculate_bleu(generated_answer, reference_answer)

    # Affichage
    print(f"Question: {question}")
    print(f"Réponse attendue: {reference_answer}")
    print(f"Réponse générée: {generated_answer}")
    print(f"F1: {f1:.2f}")
    print(f"BERTScore: {bert:.2f}")
    print(f"ROUGE-1: {rouge_scores['rouge1']:.2f}, ROUGE-2: {rouge_scores['rouge2']:.2f}, ROUGE-L: {rouge_scores['rougeL']:.2f}")
    print(f"BLEU: {bleu:.2f}\n{'-'*50}")

tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/625 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.96M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/714M [00:00<?, ?B/s]

Question: Quel astronome a émit l'idée en premier d'une planète entre les orbites de Mars et Jupiter ?
Réponse attendue: Johann Elert Bode
Réponse générée: L'idée d'une planète entre les orbites de Mars et Jupiter fut proposée pour la première fois par Johann Elert Bode en 1768.
F1: 0.24
BERTScore: 0.69
ROUGE-1: 0.19, ROUGE-2: 0.14, ROUGE-L: 0.19
BLEU: 0.04
--------------------------------------------------
Question: Quel astronome découvrit Uranus ?
Réponse attendue: William Herschel
Réponse générée: L'astronome qui découvrit Uranus était William Herschel.
F1: 0.44
BERTScore: 0.72
ROUGE-1: 0.36, ROUGE-2: 0.22, ROUGE-L: 0.36
BLEU: 0.03
--------------------------------------------------
Question: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse attendue: plusieurs autres astéroïdes
Réponse générée: Les vingt-quatre astronomes n'ont pas découvert Cérès, mais ont trouvé plusieurs autres astéroïdes.
F1: 0.38
BERTScore: 0.69
ROUGE-1: 0.40, ROUGE-2: 0.35, ROUGE-L:

#No Preprocessing Temperature = 0.5

In [62]:
# Charger le premier contexte et ses questions
context = dataset["data"][0]["paragraphs"][0]["context"]
questions = [qa["question"] for qa in dataset["data"][0]["paragraphs"][0]["qas"]]

# Fonction pour traiter chaque question avec le même contexte
def process_questions(context, questions, split_texts, method="early_chunking", top_k=5):
    responses = {}
    # Traiter chaque question
    for idx, question in enumerate(questions):
        # Construire le prompt pour le LLM
        prompt = f"""
        Voici des extraits pertinents :

        {context}

        Question : {question}

        Développe une réponse courte en français pertinente sans dépasser les 150 mots.
        Évite les répétitions et ne dépasse pas le nombre de mots.
        La réponse doit être dans la même langue que la question.
        J'insiste respecte le nombre de mots donc je veux des réponses les plus courte.

        Réponse :
        """

        # Envoyer au modèle LLM
        inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
        outputs = model.generate(
            **inputs,
            max_new_tokens=150,  # Longueur max
            temperature=0.5,
            top_p=0.9,
            top_k=50,
            do_sample=True,
        )

        # Décoder et nettoyer la réponse
        response = tokenizer.decode(outputs[0], skip_special_tokens=True)
        cleaned_response = response.split("Réponse :")[-1].strip()
        responses[f"response_q{idx + 1}"] = cleaned_response

    return responses

# Tester la fonction sur le premier contexte et les questions associées
split_texts = [context]  # Pas de découpage dans cet exemple
all_responses = process_questions(context, questions, split_texts)

for idx, question in enumerate(questions):
    response_key = f"response_q{idx + 1}"
    response = all_responses[response_key]
    print(f"Question {idx + 1}: {question}")
    print(f"Réponse {idx + 1}: {response.strip()}")
    print("-" * 50)





Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


Question 1: Quel astronome a émit l'idée en premier d'une planète entre les orbites de Mars et Jupiter ?
Réponse 1: L'idée d'une planète entre les orbites de Mars et Jupiter fut proposée pour la première fois par Johann Elert Bode en 1768. Cette idée fut basée sur la loi de Titius-Bode, une théorie désormais obsolète proposée par Johann Daniel Titius en 1766.
--------------------------------------------------
Question 2: Quel astronome découvrit Uranus ?
Réponse 2: L'astronome qui découvrit Uranus était William Herschel.
--------------------------------------------------
Question 3: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse 3: Les vingt-quatre astronomes n'ont pas découvert Cérès, mais ils ont trouvé plusieurs autres astéroïdes.

        L'idée selon laquelle une planète inconnue pourrait exister entre les orbites de Mars et Jupiter fut proposée pour la première fois par Johann Elert Bode en 1768. Ses suggestions étaient basées sur la loi de Titius-Bo

In [63]:
# Limiter l'évaluation au premier contexte et ses questions
first_paragraph = dataset["data"][0]["paragraphs"][0]
reference_answers = [qa["answers"][0]["text"] for qa in first_paragraph["qas"]]  # Réponses attendues
questions = [qa["question"] for qa in first_paragraph["qas"]]  # Questions associées

# Évaluer uniquement sur les réponses correspondantes
for idx, (question, reference_answer) in enumerate(zip(questions, reference_answers)):
    generated_answer = all_responses.get(f"response_q{idx + 1}", "")

    # Calcul des métriques
    em = calculate_exact_match(generated_answer, reference_answer)
    f1 = calculate_f1(generated_answer, reference_answer)
    bert = calculate_bertscore(generated_answer, reference_answer, lang="fr")
    rouge_scores = calculate_rouge(generated_answer, reference_answer)
    bleu = calculate_bleu(generated_answer, reference_answer)

    # Affichage
    print(f"Question: {question}")
    print(f"Réponse attendue: {reference_answer}")
    print(f"Réponse générée: {generated_answer}")
    print(f"F1: {f1:.2f}")
    print(f"BERTScore: {bert:.2f}")
    print(f"ROUGE-1: {rouge_scores['rouge1']:.2f}, ROUGE-2: {rouge_scores['rouge2']:.2f}, ROUGE-L: {rouge_scores['rougeL']:.2f}")
    print(f"BLEU: {bleu:.2f}\n{'-'*50}")

Question: Quel astronome a émit l'idée en premier d'une planète entre les orbites de Mars et Jupiter ?
Réponse attendue: Johann Elert Bode
Réponse générée: L'idée d'une planète entre les orbites de Mars et Jupiter fut proposée pour la première fois par Johann Elert Bode en 1768. Cette idée fut basée sur la loi de Titius-Bode, une théorie désormais obsolète proposée par Johann Daniel Titius en 1766.
F1: 0.13
BERTScore: 0.65
ROUGE-1: 0.10, ROUGE-2: 0.07, ROUGE-L: 0.10
BLEU: 0.02
--------------------------------------------------
Question: Quel astronome découvrit Uranus ?
Réponse attendue: William Herschel
Réponse générée: L'astronome qui découvrit Uranus était William Herschel.
F1: 0.44
BERTScore: 0.72
ROUGE-1: 0.36, ROUGE-2: 0.22, ROUGE-L: 0.36
BLEU: 0.03
--------------------------------------------------
Question: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse attendue: plusieurs autres astéroïdes
Réponse générée: Les vingt-quatre astronomes n'ont pas déc

#No Preprocessing Temperature = 0.9

In [13]:
# Charger le premier contexte et ses questions
context = dataset["data"][0]["paragraphs"][0]["context"]
questions = [qa["question"] for qa in dataset["data"][0]["paragraphs"][0]["qas"]]

# Fonction pour traiter chaque question avec le même contexte
def process_questions(context, questions, split_texts, top_k=5):
    responses = {}
    # Traiter chaque question
    for idx, question in enumerate(questions):
        # Construire le prompt pour le LLM
        prompt = f"""
        Voici des extraits pertinents :

        {context}

        Question : {question}

        Développe une réponse courte en français pertinente sans dépasser les 150 mots.
        Évite les répétitions et ne dépasse pas le nombre de mots.
        La réponse doit être dans la même langue que la question.
        J'insiste respecte le nombre de mots donc je veux des réponses les plus courte.

        Réponse :
        """

        # Envoyer au modèle LLM
        inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
        outputs = model.generate(
            **inputs,
            max_new_tokens=150,  # Longueur max
            temperature=0.9,
            top_p=0.9,
            top_k=50,
            do_sample=True,
        )

        # Décoder et nettoyer la réponse
        response = tokenizer.decode(outputs[0], skip_special_tokens=True)
        cleaned_response = response.split("Réponse :")[-1].strip()
        responses[f"response_q{idx + 1}"] = cleaned_response

    return responses

# Tester la fonction sur le premier contexte et les questions associées
split_texts = [context]  # Pas de découpage dans cet exemple
all_responses = process_questions(context, questions, split_texts)

for idx, question in enumerate(questions):
    response_key = f"response_q{idx + 1}"
    response = all_responses[response_key]
    print(f"Question {idx + 1}: {question}")
    print(f"Réponse {idx + 1}: {response.strip()}")
    print("-" * 50)





Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


Question 1: Quel astronome a émit l'idée en premier d'une planète entre les orbites de Mars et Jupiter ?
Réponse 1: L'idée d'une planète inconnue entre les orbites de Mars et Jupiter fut proposée pour la première fois par Johann Elert Bode en 1768.

        Raison :
        
        Johann Elert Bode est un astronome allemand qui proposa l'existence d'une planète inconnue entre les orbites de Mars et Jupiter en 1768.

        Voici une réponse à la question de ce sujet :
        Le premier à émettre l'idée d'une planète entre les orbites de Mars et Jupiter fut un astronome allemand nommé Johann Elert
--------------------------------------------------
Question 2: Quel astronome découvrit Uranus ?
Réponse 2: L'idée d'une plan
--------------------------------------------------
Question 3: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse 3: L'équipe dirigée par Franz Xaver von Zach, composée de 24 astronomes, n'a pas découvert Cérès mais a néanmoins trouvé plusi

In [14]:
# Limiter l'évaluation au premier contexte et ses questions
first_paragraph = dataset["data"][0]["paragraphs"][0]
reference_answers = [qa["answers"][0]["text"] for qa in first_paragraph["qas"]]  # Réponses attendues
questions = [qa["question"] for qa in first_paragraph["qas"]]  # Questions associées

# Évaluer uniquement sur les réponses correspondantes
for idx, (question, reference_answer) in enumerate(zip(questions, reference_answers)):
    generated_answer = all_responses.get(f"response_q{idx + 1}", "")

    # Calcul des métriques
    em = calculate_exact_match(generated_answer, reference_answer)
    f1 = calculate_f1(generated_answer, reference_answer)
    bert = calculate_bertscore(generated_answer, reference_answer, lang="fr")
    rouge_scores = calculate_rouge(generated_answer, reference_answer)
    bleu = calculate_bleu(generated_answer, reference_answer)

    # Affichage
    print(f"Question: {question}")
    print(f"Réponse attendue: {reference_answer}")
    print(f"Réponse générée: {generated_answer}")
    print(f"F1: {f1:.2f}")
    print(f"BERTScore: {bert:.2f}")
    print(f"ROUGE-1: {rouge_scores['rouge1']:.2f}, ROUGE-2: {rouge_scores['rouge2']:.2f}, ROUGE-L: {rouge_scores['rougeL']:.2f}")
    print(f"BLEU: {bleu:.2f}\n{'-'*50}")

Question: Quel astronome a émit l'idée en premier d'une planète entre les orbites de Mars et Jupiter ?
Réponse attendue: Johann Elert Bode
Réponse générée: L'idée d'une planète inconnue entre les orbites de Mars et Jupiter fut proposée pour la première fois par Johann Elert Bode en 1768.

        Raison :
        
        Johann Elert Bode est un astronome allemand qui proposa l'existence d'une planète inconnue entre les orbites de Mars et Jupiter en 1768.

        Voici une réponse à la question de ce sujet :
        Le premier à émettre l'idée d'une planète entre les orbites de Mars et Jupiter fut un astronome allemand nommé Johann Elert
F1: 0.08
BERTScore: 0.59
ROUGE-1: 0.07, ROUGE-2: 0.04, ROUGE-L: 0.07
BLEU: 0.01
--------------------------------------------------
Question: Quel astronome découvrit Uranus ?
Réponse attendue: William Herschel
Réponse générée: L'idée d'une plan
F1: 0.00
BERTScore: 0.62
ROUGE-1: 0.00, ROUGE-2: 0.00, ROUGE-L: 0.00
BLEU: 0.00
---------------------------

# Early chunking

In [15]:
def early_chunking(user_query, split_texts, top_k=5):
    # Tokenisation
    tokenized_texts = [text.lower().split() for text in split_texts]
    bm25 = BM25Okapi(tokenized_texts)

    # Recherche BM25
    tokenized_query = user_query.lower().split()
    bm25_scores = bm25.get_scores(tokenized_query)

    # Obtenir les indices des 5 meilleurs chunks
    top_chunks_idx = sorted(range(len(bm25_scores)), key=lambda i: bm25_scores[i], reverse=True)[:5]
    top_chunks = [split_texts[i] for i in top_chunks_idx]
    return top_chunks





#Temperature = 0.1

In [16]:
# Charger le premier contexte et ses questions
first_context = dataset["data"][0]["paragraphs"][0]["context"]
questions = [qa["question"] for qa in dataset["data"][0]["paragraphs"][0]["qas"]]

# Fonction pour traiter chaque question avec le même contexte
def process_questions(context, questions, split_texts, method="early_chunking", top_k=5, dense_model=None):
    responses = {}

    for idx, question in enumerate(questions):
        # Effectuer la recherche selon la méthode choisie
        if method == "early_chunking":
            relevant_chunks = early_chunking(question, split_texts, top_k=top_k)
        else:
            relevant_chunks = split_texts  # Si aucune méthode n'est spécifiée, prendre tous les chunks

        # Combiner les chunks pour créer un contexte
        context_combined = "\n---\n".join(relevant_chunks)

        # Construire le prompt pour le LLM
        prompt = f"""
        Voici des extraits pertinents :

        {context}

        Question : {question}

        Développe une réponse courte en français pertinente sans dépasser les 150 mots.
        Évite les répétitions et ne dépasse pas le nombre de mots.
        La réponse doit être dans la même langue que la question.
        J'insiste respecte le nombre de mots donc je veux des réponses les plus courte.

        Réponse :
        """

        # Envoyer au modèle LLM
        inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
        outputs = model.generate(
            **inputs,
            max_new_tokens=150,
            temperature=0.1,
            top_p=0.9,
            top_k=50,
            do_sample=True,
        )

        # Décoder et nettoyer la réponse
        response = tokenizer.decode(outputs[0], skip_special_tokens=True)
        cleaned_response = response.split("Réponse :")[-1].strip()
        responses[f"response_q{idx + 1}"] = cleaned_response

    return responses


# Tester la fonction sur le premier contexte et les questions associées
split_texts = [first_context]  # Pas de découpage dans cet exemple
all_responses = process_questions(first_context, questions, split_texts)

for idx, question in enumerate(questions):
    response_key = f"response_q{idx + 1}"
    response = all_responses[response_key]
    print(f"Question {idx + 1}: {question}")
    print(f"Réponse {idx + 1}: {response.strip()}")
    print("-" * 50)




Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


Question 1: Quel astronome a émit l'idée en premier d'une planète entre les orbites de Mars et Jupiter ?
Réponse 1: L'idée d'une planète entre les orbites de Mars et Jupiter fut proposée pour la première fois par Johann Elert Bode en 1768.
--------------------------------------------------
Question 2: Quel astronome découvrit Uranus ?
Réponse 2: L'astronome qui découvrit Uranus était William Herschel.
--------------------------------------------------
Question 3: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse 3: Les vingt-quatre astronomes n'ont pas découvert Cérès mais ont trouvé plusieurs autres astéroïdes.
--------------------------------------------------
Question 4: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse 4: Les vingt-quatre astronomes n'ont pas découvert Cérès, mais ont trouvé plusieurs autres astéroïdes.
--------------------------------------------------


In [17]:
# Limiter l'évaluation au premier contexte et ses questions
first_paragraph = dataset["data"][0]["paragraphs"][0]
reference_answers = [qa["answers"][0]["text"] for qa in first_paragraph["qas"]]  # Réponses attendues
questions = [qa["question"] for qa in first_paragraph["qas"]]  # Questions associées

# Évaluer uniquement sur les réponses correspondantes
for idx, (question, reference_answer) in enumerate(zip(questions, reference_answers)):
    generated_answer = all_responses.get(f"response_q{idx + 1}", "")

    # Calcul des métriques
    em = calculate_exact_match(generated_answer, reference_answer)
    f1 = calculate_f1(generated_answer, reference_answer)
    bert = calculate_bertscore(generated_answer, reference_answer, lang="fr")
    rouge_scores = calculate_rouge(generated_answer, reference_answer)
    bleu = calculate_bleu(generated_answer, reference_answer)

    # Affichage
    print(f"Question: {question}")
    print(f"Réponse attendue: {reference_answer}")
    print(f"Réponse générée: {generated_answer}")
    print(f"F1: {f1:.2f}")
    print(f"BERTScore: {bert:.2f}")
    print(f"ROUGE-1: {rouge_scores['rouge1']:.2f}, ROUGE-2: {rouge_scores['rouge2']:.2f}, ROUGE-L: {rouge_scores['rougeL']:.2f}")
    print(f"BLEU: {bleu:.2f}\n{'-'*50}")


Question: Quel astronome a émit l'idée en premier d'une planète entre les orbites de Mars et Jupiter ?
Réponse attendue: Johann Elert Bode
Réponse générée: L'idée d'une planète entre les orbites de Mars et Jupiter fut proposée pour la première fois par Johann Elert Bode en 1768.
F1: 0.24
BERTScore: 0.69
ROUGE-1: 0.19, ROUGE-2: 0.14, ROUGE-L: 0.19
BLEU: 0.04
--------------------------------------------------
Question: Quel astronome découvrit Uranus ?
Réponse attendue: William Herschel
Réponse générée: L'astronome qui découvrit Uranus était William Herschel.
F1: 0.44
BERTScore: 0.72
ROUGE-1: 0.36, ROUGE-2: 0.22, ROUGE-L: 0.36
BLEU: 0.03
--------------------------------------------------
Question: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse attendue: plusieurs autres astéroïdes
Réponse générée: Les vingt-quatre astronomes n'ont pas découvert Cérès mais ont trouvé plusieurs autres astéroïdes.
F1: 0.38
BERTScore: 0.70
ROUGE-1: 0.40, ROUGE-2: 0.35, ROUGE-L: 

#Temperature=0.9

In [18]:
# Charger le premier contexte et ses questions
first_context = dataset["data"][0]["paragraphs"][0]["context"]
questions = [qa["question"] for qa in dataset["data"][0]["paragraphs"][0]["qas"]]

# Fonction pour traiter chaque question avec le même contexte
def process_questions(context, questions, split_texts, method="early_chunking", top_k=5, dense_model=None):
    responses = {}

    for idx, question in enumerate(questions):
        # Effectuer la recherche selon la méthode choisie
        if method == "early_chunking":
            relevant_chunks = early_chunking(question, split_texts, top_k=top_k)
        else:
            relevant_chunks = split_texts  # Si aucune méthode n'est spécifiée, prendre tous les chunks

        # Combiner les chunks pour créer un contexte
        context_combined = "\n---\n".join(relevant_chunks)

        # Construire le prompt pour le LLM
        prompt = f"""
        Voici des extraits pertinents :

        {context}

        Question : {question}

        Développe une réponse courte en français pertinente sans dépasser les 150 mots.
        Évite les répétitions et ne dépasse pas le nombre de mots.
        La réponse doit être dans la même langue que la question.
        J'insiste respecte le nombre de mots donc je veux des réponses les plus courte.

        Réponse :
        """

        # Envoyer au modèle LLM
        inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
        outputs = model.generate(
            **inputs,
            max_new_tokens=150,
            temperature=0.9,
            top_p=0.9,
            top_k=50,
            do_sample=True,
        )

        # Décoder et nettoyer la réponse
        response = tokenizer.decode(outputs[0], skip_special_tokens=True)
        cleaned_response = response.split("Réponse :")[-1].strip()
        responses[f"response_q{idx + 1}"] = cleaned_response

    return responses


# Tester la fonction sur le premier contexte et les questions associées
split_texts = [first_context]  # Pas de découpage dans cet exemple
all_responses = process_questions(first_context, questions, split_texts)

for idx, question in enumerate(questions):
    response_key = f"response_q{idx + 1}"
    response = all_responses[response_key]
    print(f"Question {idx + 1}: {question}")
    print(f"Réponse {idx + 1}: {response.strip()}")
    print("-" * 50)




Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


Question 1: Quel astronome a émit l'idée en premier d'une planète entre les orbites de Mars et Jupiter ?
Réponse 1: L'idée d'une planète entre les orbites de Mars et Jupiter a été proposée pour la première fois par Johann Elert Bode en 1768. Cette planète n'a jamais été découverte.

        Answer:
        
        The idea of a planet between the orbits of Mars and Jupiter was first proposed by Johann Elert Bode in 1768. No such planet has ever been discovered.

        Comment?

        Cette réponse est courte et pertinente. Il ne comporte pas de répétition. Il respecte le nombre de mots imposé. Il est correcte et pertinent.
--------------------------------------------------
Question 2: Quel astronome découvrit Uranus ?
Réponse 2: Uranus fut découvert par William Herschel en 1781.
--------------------------------------------------
Question 3: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse 3: En 1800, vingt-quatre astronomes cherchèrent méthodiquement la

In [19]:
# Limiter l'évaluation au premier contexte et ses questions
first_paragraph = dataset["data"][0]["paragraphs"][0]
reference_answers = [qa["answers"][0]["text"] for qa in first_paragraph["qas"]]  # Réponses attendues
questions = [qa["question"] for qa in first_paragraph["qas"]]  # Questions associées

# Évaluer uniquement sur les réponses correspondantes
for idx, (question, reference_answer) in enumerate(zip(questions, reference_answers)):
    generated_answer = all_responses.get(f"response_q{idx + 1}", "")

    # Calcul des métriques
    em = calculate_exact_match(generated_answer, reference_answer)
    f1 = calculate_f1(generated_answer, reference_answer)
    bert = calculate_bertscore(generated_answer, reference_answer, lang="fr")
    rouge_scores = calculate_rouge(generated_answer, reference_answer)
    bleu = calculate_bleu(generated_answer, reference_answer)

    # Affichage
    print(f"Question: {question}")
    print(f"Réponse attendue: {reference_answer}")
    print(f"Réponse générée: {generated_answer}")
    print(f"F1: {f1:.2f}")
    print(f"BERTScore: {bert:.2f}")
    print(f"ROUGE-1: {rouge_scores['rouge1']:.2f}, ROUGE-2: {rouge_scores['rouge2']:.2f}, ROUGE-L: {rouge_scores['rougeL']:.2f}")
    print(f"BLEU: {bleu:.2f}\n{'-'*50}")


Question: Quel astronome a émit l'idée en premier d'une planète entre les orbites de Mars et Jupiter ?
Réponse attendue: Johann Elert Bode
Réponse générée: L'idée d'une planète entre les orbites de Mars et Jupiter a été proposée pour la première fois par Johann Elert Bode en 1768. Cette planète n'a jamais été découverte.

        Answer:
        
        The idea of a planet between the orbits of Mars and Jupiter was first proposed by Johann Elert Bode in 1768. No such planet has ever been discovered.

        Comment?

        Cette réponse est courte et pertinente. Il ne comporte pas de répétition. Il respecte le nombre de mots imposé. Il est correcte et pertinent.
F1: 0.07
BERTScore: 0.56
ROUGE-1: 0.06, ROUGE-2: 0.04, ROUGE-L: 0.06
BLEU: 0.01
--------------------------------------------------
Question: Quel astronome découvrit Uranus ?
Réponse attendue: William Herschel
Réponse générée: Uranus fut découvert par William Herschel en 1781.
F1: 0.40
BERTScore: 0.73
ROUGE-1: 0.36, ROUGE-

#Hybrid Search


#### Préparer les chunks

## Initialisation du modèle dense et des embeddings

In [20]:
dense_model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
corpus_embeddings = dense_model.encode(split_texts, show_progress_bar=True)


# Index Dense (Faiss)
d = corpus_embeddings.shape[1]
index_dense = faiss.IndexFlatIP(d)
index_dense.add(corpus_embeddings)



modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.7k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

In [21]:
def hybrid_search(user_query, split_texts, dense_model, bm25_weight=0.7, dense_weight=0.3, top_k=5):
    """
    Effectue une recherche hybride (BM25 + Dense embeddings) et retourne les meilleurs résultats.

    :param user_query: str, la requête utilisateur
    :param split_texts: list of str, les textes segmentés (split/chunks)
    :param dense_model: modèle SentenceTransformer pré-entraîné pour générer des embeddings
    :param bm25_weight: float, poids pour le score BM25 dans la fusion
    :param dense_weight: float, poids pour le score Dense dans la fusion
    :param top_k: int, nombre de résultats à retourner
    :return: list of str, les meilleurs chunks correspondants à la requête
    """

    # Index BM25
    tokenized_chunks = [chunk.lower().split() for chunk in split_texts]
    bm25 = BM25Okapi(tokenized_chunks)

    # Recherche BM25
    tokenized_query = user_query.lower().split()
    bm25_scores = bm25.get_scores(tokenized_query)
    bm25_top_idx = sorted(range(len(bm25_scores)), key=lambda i: bm25_scores[i], reverse=True)[:top_k]

    # Recherche Dense
    query_emb = dense_model.encode([user_query])
    corpus_embeddings = dense_model.encode(split_texts, show_progress_bar=False)
    d = corpus_embeddings.shape[1]
    index_dense = faiss.IndexFlatIP(d)
    index_dense.add(corpus_embeddings)
    D, I = index_dense.search(query_emb, top_k)
    dense_top_idx = I[0]

    # Normalisation des scores
    bm25_scores_normalized = bm25_scores / max(bm25_scores) if max(bm25_scores) > 0 else bm25_scores
    dense_scores_normalized = D[0] / max(D[0]) if max(D[0]) > 0 else D[0]

    # Fusion pondérée des scores
    combined_scores = {}
    for idx in bm25_top_idx:
        combined_scores[idx] = bm25_scores_normalized[idx] * bm25_weight
    for idx, score in zip(dense_top_idx, dense_scores_normalized):
        if idx in combined_scores:
            combined_scores[idx] += score * dense_weight
        else:
            combined_scores[idx] = score * dense_weight

    # Trier les résultats combinés
    sorted_combined_indices = sorted(combined_scores, key=combined_scores.get, reverse=True)[:top_k]
    top_chunks = [split_texts[i] for i in sorted_combined_indices]

    return top_chunks


#Temperature = 0.1

In [22]:
# Charger le premier contexte et ses questions
first_context = dataset["data"][0]["paragraphs"][0]["context"]
questions = [qa["question"] for qa in dataset["data"][0]["paragraphs"][0]["qas"]]

# Fonction pour traiter chaque question avec le même contexte
def process_questions(context, questions, split_texts, method="hybrid_search", top_k=5, dense_model=dense_model):
    responses = {}

    for idx, question in enumerate(questions):
        # Effectuer la recherche selon la méthode choisie
        if method == "early_chunking":
            relevant_chunks = early_chunking(question, split_texts, top_k=top_k)
        elif method == "hybrid_search":
            relevant_chunks = hybrid_search(question, split_texts, dense_model=dense_model, top_k=top_k)
        else:
            relevant_chunks = split_texts  # Si aucune méthode n'est spécifiée, prendre tous les chunks

        # Combiner les chunks pour créer un contexte
        context_combined = "\n---\n".join(relevant_chunks)

        # Construire le prompt pour le LLM
        prompt = f"""
        Voici des extraits pertinents :

        {context}

        Question : {question}

        Développe une réponse courte en français pertinente sans dépasser les 150 mots.
        Évite les répétitions et ne dépasse pas le nombre de mots.
        La réponse doit être dans la même langue que la question.
        J'insiste respecte le nombre de mots donc je veux des réponses les plus courte.

        Réponse :
        """

        # Envoyer au modèle LLM
        inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
        outputs = model.generate(
            **inputs,
            max_new_tokens=150,
            temperature=0.1,
            top_p=0.9,
            top_k=50,
            do_sample=True,
        )

        # Décoder et nettoyer la réponse
        response = tokenizer.decode(outputs[0], skip_special_tokens=True)
        cleaned_response = response.split("Réponse :")[-1].strip()
        responses[f"response_q{idx + 1}"] = cleaned_response

    return responses

# Tester la fonction sur le premier contexte et les questions associées
split_texts = [first_context]
all_responses = process_questions(
    first_context,
    questions,
    split_texts,
    method="hybrid_search",  # Utilise la recherche hybride
    top_k=5,
    dense_model=dense_model
)


for idx, question in enumerate(questions):
    response_key = f"response_q{idx + 1}"
    response = all_responses[response_key]
    print(f"Question {idx + 1}: {question}")
    print(f"Réponse {idx + 1}: {response.strip()}")
    print("-" * 50)




  dense_scores_normalized = D[0] / max(D[0]) if max(D[0]) > 0 else D[0]
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


Question 1: Quel astronome a émit l'idée en premier d'une planète entre les orbites de Mars et Jupiter ?
Réponse 1: L'idée d'une planète entre les orbites de Mars et Jupiter fut proposée pour la première fois par Johann Elert Bode en 1768.
--------------------------------------------------
Question 2: Quel astronome découvrit Uranus ?
Réponse 2: L'astronome qui découvrit Uranus était William Herschel.
--------------------------------------------------
Question 3: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse 3: Les vingt-quatre astronomes n'ont pas découvert Cérès, mais ont trouvé plusieurs autres astéroïdes.
--------------------------------------------------
Question 4: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse 4: Les vingt-quatre astronomes n'ont pas découvert Cérès, mais ont trouvé plusieurs autres astéroïdes.
--------------------------------------------------


In [23]:
# Limiter l'évaluation au premier contexte et ses questions
first_paragraph = dataset["data"][0]["paragraphs"][0]
reference_answers = [qa["answers"][0]["text"] for qa in first_paragraph["qas"]]  # Réponses attendues
questions = [qa["question"] for qa in first_paragraph["qas"]]  # Questions associées

# Évaluer uniquement sur les réponses correspondantes
for idx, (question, reference_answer) in enumerate(zip(questions, reference_answers)):
    generated_answer = all_responses.get(f"response_q{idx + 1}", "")

    # Calcul des métriques
    em = calculate_exact_match(generated_answer, reference_answer)
    f1 = calculate_f1(generated_answer, reference_answer)
    bert = calculate_bertscore(generated_answer, reference_answer, lang="fr")
    rouge_scores = calculate_rouge(generated_answer, reference_answer)
    bleu = calculate_bleu(generated_answer, reference_answer)

    # Affichage
    print(f"Question: {question}")
    print(f"Réponse attendue: {reference_answer}")
    print(f"Réponse générée: {generated_answer}")
    print(f"F1: {f1:.2f}")
    print(f"BERTScore: {bert:.2f}")
    print(f"ROUGE-1: {rouge_scores['rouge1']:.2f}, ROUGE-2: {rouge_scores['rouge2']:.2f}, ROUGE-L: {rouge_scores['rougeL']:.2f}")
    print(f"BLEU: {bleu:.2f}\n{'-'*50}")


Question: Quel astronome a émit l'idée en premier d'une planète entre les orbites de Mars et Jupiter ?
Réponse attendue: Johann Elert Bode
Réponse générée: L'idée d'une planète entre les orbites de Mars et Jupiter fut proposée pour la première fois par Johann Elert Bode en 1768.
F1: 0.24
BERTScore: 0.69
ROUGE-1: 0.19, ROUGE-2: 0.14, ROUGE-L: 0.19
BLEU: 0.04
--------------------------------------------------
Question: Quel astronome découvrit Uranus ?
Réponse attendue: William Herschel
Réponse générée: L'astronome qui découvrit Uranus était William Herschel.
F1: 0.44
BERTScore: 0.72
ROUGE-1: 0.36, ROUGE-2: 0.22, ROUGE-L: 0.36
BLEU: 0.03
--------------------------------------------------
Question: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse attendue: plusieurs autres astéroïdes
Réponse générée: Les vingt-quatre astronomes n'ont pas découvert Cérès, mais ont trouvé plusieurs autres astéroïdes.
F1: 0.38
BERTScore: 0.69
ROUGE-1: 0.40, ROUGE-2: 0.35, ROUGE-L:

#Temperature = 0.9

In [24]:
# Charger le premier contexte et ses questions
first_context = dataset["data"][0]["paragraphs"][0]["context"]
questions = [qa["question"] for qa in dataset["data"][0]["paragraphs"][0]["qas"]]

# Fonction pour traiter chaque question avec le même contexte
def process_questions(context, questions, split_texts, method="hybrid_search", top_k=5, dense_model=dense_model):
    responses = {}

    for idx, question in enumerate(questions):
        # Effectuer la recherche selon la méthode choisie
        if method == "early_chunking":
            relevant_chunks = early_chunking(question, split_texts, top_k=top_k)
        elif method == "hybrid_search":
            relevant_chunks = hybrid_search(question, split_texts, dense_model=dense_model, top_k=top_k)
        else:
            relevant_chunks = split_texts  # Si aucune méthode n'est spécifiée, prendre tous les chunks

        # Combiner les chunks pour créer un contexte
        context_combined = "\n---\n".join(relevant_chunks)

        # Construire le prompt pour le LLM
        prompt = f"""
        Voici des extraits pertinents :

        {context}

        Question : {question}

        Développe une réponse courte en français pertinente sans dépasser les 150 mots.
        Évite les répétitions et ne dépasse pas le nombre de mots.
        La réponse doit être dans la même langue que la question.
        J'insiste respecte le nombre de mots donc je veux des réponses les plus courte.

        Réponse :
        """

        # Envoyer au modèle LLM
        inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
        outputs = model.generate(
            **inputs,
            max_new_tokens=150,
            temperature=0.9,
            top_p=0.9,
            top_k=50,
            do_sample=True,
        )

        # Décoder et nettoyer la réponse
        response = tokenizer.decode(outputs[0], skip_special_tokens=True)
        cleaned_response = response.split("Réponse :")[-1].strip()
        responses[f"response_q{idx + 1}"] = cleaned_response

    return responses

# Tester la fonction sur le premier contexte et les questions associées
split_texts = [first_context]
all_responses = process_questions(
    first_context,
    questions,
    split_texts,
    method="hybrid_search",  # Utilise la recherche hybride
    top_k=5,
    dense_model=dense_model
)


for idx, question in enumerate(questions):
    response_key = f"response_q{idx + 1}"
    response = all_responses[response_key]
    print(f"Question {idx + 1}: {question}")
    print(f"Réponse {idx + 1}: {response.strip()}")
    print("-" * 50)




  dense_scores_normalized = D[0] / max(D[0]) if max(D[0]) > 0 else D[0]
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


Question 1: Quel astronome a émit l'idée en premier d'une planète entre les orbites de Mars et Jupiter ?
Réponse 1: L'idée d'une planète inconnue entre les orbites de Mars et Jupiter fut proposée pour la première fois par Johann Elert Bode en 1768.

        (22 mots)

        Réponse courte.
        Bode était un astronome allemand.
        Il propose cette idée pour remplacer la loi de Titus-Bode.
        Elle n'est pas encore acceptée aujourd'hui.
--------------------------------------------------
Question 2: Quel astronome découvrit Uranus ?
Réponse 2: L'idée d'existence d'une planète intermédiaire entre Mars et Jupiter a été proposée pour la première fois par Johann Elert Bode en 1768. Il a découvert Uranus en 1781, en même temps que son orbitale a été découverte par William Herschel. La découverte d'Uranus a augmenté la confiance dans la théorie de Titus-Bode et en 1800, une recherche méthodique a été entreprise pour trouver Cérès.
-------------------------------------------------

In [25]:
# Limiter l'évaluation au premier contexte et ses questions
first_paragraph = dataset["data"][0]["paragraphs"][0]
reference_answers = [qa["answers"][0]["text"] for qa in first_paragraph["qas"]]  # Réponses attendues
questions = [qa["question"] for qa in first_paragraph["qas"]]  # Questions associées

# Évaluer uniquement sur les réponses correspondantes
for idx, (question, reference_answer) in enumerate(zip(questions, reference_answers)):
    generated_answer = all_responses.get(f"response_q{idx + 1}", "")

    # Calcul des métriques
    em = calculate_exact_match(generated_answer, reference_answer)
    f1 = calculate_f1(generated_answer, reference_answer)
    bert = calculate_bertscore(generated_answer, reference_answer, lang="fr")
    rouge_scores = calculate_rouge(generated_answer, reference_answer)
    bleu = calculate_bleu(generated_answer, reference_answer)

    # Affichage
    print(f"Question: {question}")
    print(f"Réponse attendue: {reference_answer}")
    print(f"Réponse générée: {generated_answer}")
    print(f"F1: {f1:.2f}")
    print(f"BERTScore: {bert:.2f}")
    print(f"ROUGE-1: {rouge_scores['rouge1']:.2f}, ROUGE-2: {rouge_scores['rouge2']:.2f}, ROUGE-L: {rouge_scores['rougeL']:.2f}")
    print(f"BLEU: {bleu:.2f}\n{'-'*50}")


Question: Quel astronome a émit l'idée en premier d'une planète entre les orbites de Mars et Jupiter ?
Réponse attendue: Johann Elert Bode
Réponse générée: L'idée d'une planète inconnue entre les orbites de Mars et Jupiter fut proposée pour la première fois par Johann Elert Bode en 1768.

        (22 mots)

        Réponse courte.
        Bode était un astronome allemand.
        Il propose cette idée pour remplacer la loi de Titus-Bode.
        Elle n'est pas encore acceptée aujourd'hui.
F1: 0.12
BERTScore: 0.64
ROUGE-1: 0.10, ROUGE-2: 0.07, ROUGE-L: 0.10
BLEU: 0.02
--------------------------------------------------
Question: Quel astronome découvrit Uranus ?
Réponse attendue: William Herschel
Réponse générée: L'idée d'existence d'une planète intermédiaire entre Mars et Jupiter a été proposée pour la première fois par Johann Elert Bode en 1768. Il a découvert Uranus en 1781, en même temps que son orbitale a été découverte par William Herschel. La découverte d'Uranus a augmenté la conf

#Late Chunking

In [26]:
def late_chunking(user_query, all_documents, chunk_size=1000, chunk_overlap=100, top_n_docs=5, top_n_chunks=5):
    """
    Recherche BM25 avec découpage en chunks sur une collection de documents.

    Args:
        user_query (str): La requête utilisateur.
        all_documents (list): Liste des documents (chaque document doit avoir un attribut `page_content`).
        chunk_size (int): Taille maximale des chunks (en caractères).
        chunk_overlap (int): Chevauchement entre les chunks (en caractères).
        top_n_docs (int): Nombre de documents les plus pertinents à sélectionner.
        top_n_chunks (int): Nombre de chunks les plus pertinents à retourner.

    Returns:
        list: Les `top_n_chunks` les plus pertinents.
    """
    # Si les documents sont des chaînes, les convertir en objets Document
    if isinstance(all_documents[0], str):
        from langchain.docstore.document import Document
        all_documents = [Document(page_content=text, metadata={}) for text in all_documents]

    # Étape 1 : Recherche initiale sur les documents entiers
    full_texts = [doc.page_content for doc in all_documents]
    tokenized_texts = [text.lower().split() for text in full_texts]  # Tokenisation
    bm25 = BM25Okapi(tokenized_texts)

    # Recherche BM25 sur les documents complets
    tokenized_query = user_query.lower().split()
    bm25_scores = bm25.get_scores(tokenized_query)

    # Obtenir les indices des `top_n_docs` meilleurs documents
    top_docs_idx = sorted(range(len(bm25_scores)), key=lambda i: bm25_scores[i], reverse=True)[:top_n_docs]
    top_docs = [all_documents[i] for i in top_docs_idx]

    # Étape 2 : Découpage des documents pertinents en chunks
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        separators=["\n\n", "\n", ".", "!", "?", ",", " ", ""]
    )

    split_chunks = []
    for doc in top_docs:
        chunks = text_splitter.split_documents([doc])
        split_chunks.extend(chunks)

    # Étape 3 : Recherche BM25 sur les chunks
    split_texts = [chunk.page_content for chunk in split_chunks]
    tokenized_chunks = [text.lower().split() for text in split_texts]
    bm25_chunks = BM25Okapi(tokenized_chunks)

    # Recherche BM25 sur les chunks
    bm25_chunk_scores = bm25_chunks.get_scores(tokenized_query)

    # Obtenir les indices des `top_n_chunks` meilleurs chunks
    top_chunks_idx = sorted(range(len(bm25_chunk_scores)), key=lambda i: bm25_chunk_scores[i], reverse=True)[:top_n_chunks]
    top_chunks = [split_texts[i] for i in top_chunks_idx]

    return top_chunks


#Temperature = 0.1

In [27]:
# Charger le premier contexte et ses questions
first_context = dataset["data"][0]["paragraphs"][0]["context"]
questions = [qa["question"] for qa in dataset["data"][0]["paragraphs"][0]["qas"]]

# Fonction pour traiter chaque question avec le même contexte
def process_questions(context, questions, split_texts, method="late_chunking", top_k=5, dense_model=dense_model):
    responses = {}

    for idx, question in enumerate(questions):
        # Effectuer la recherche selon la méthode choisie
        if method == "early_chunking":
            relevant_chunks = early_chunking(question, split_texts, top_k=top_k)
        elif method == "hybrid_search":
            relevant_chunks = hybrid_search(question, split_texts, dense_model=dense_model, top_k=top_k)
        elif method == "late_chunking":
            relevant_chunks = late_chunking(question,first_context)
        else:
            relevant_chunks = split_texts  # Si aucune méthode n'est spécifiée, prendre tous les chunks

        # Combiner les chunks pour créer un contexte
        context_combined = "\n---\n".join(relevant_chunks)

        # Construire le prompt pour le LLM
        prompt = f"""
        Voici des extraits pertinents :

        {context}

        Question : {question}

        Développe une réponse courte en français pertinente sans dépasser les 150 mots.
        Évite les répétitions et ne dépasse pas le nombre de mots.
        La réponse doit être dans la même langue que la question.
        J'insiste respecte le nombre de mots donc je veux des réponses les plus courte.

        Réponse :
        """

        # Envoyer au modèle LLM
        inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
        outputs = model.generate(
            **inputs,
            max_new_tokens=150,
            temperature=0.1,
            top_p=0.9,
            top_k=50,
            do_sample=True,
        )

        # Décoder et nettoyer la réponse
        response = tokenizer.decode(outputs[0], skip_special_tokens=True)
        cleaned_response = response.split("Réponse :")[-1].strip()
        responses[f"response_q{idx + 1}"] = cleaned_response

    return responses

# Tester la fonction sur le premier contexte et les questions associées
split_texts = [first_context]
all_responses = process_questions(
    first_context,
    questions,
    split_texts,
    method="late_chunking",
    top_k=5,
)


for idx, question in enumerate(questions):
    response_key = f"response_q{idx + 1}"
    response = all_responses[response_key]
    print(f"Question {idx + 1}: {question}")
    print(f"Réponse {idx + 1}: {response.strip()}")
    print("-" * 50)




Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


Question 1: Quel astronome a émit l'idée en premier d'une planète entre les orbites de Mars et Jupiter ?
Réponse 1: L'idée d'une planète entre les orbites de Mars et Jupiter fut proposée pour la première fois par Johann Elert Bode en 1768.
--------------------------------------------------
Question 2: Quel astronome découvrit Uranus ?
Réponse 2: L'astronome qui découvrit Uranus était William Herschel.
--------------------------------------------------
Question 3: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse 3: Les vingt-quatre astronomes n'ont pas découvert Cérès, mais ont trouvé plusieurs autres astéroïdes.
--------------------------------------------------
Question 4: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse 4: Les vingt-quatre astronomes n'ont pas découvert Cérès, mais ont trouvé plusieurs autres astéroïdes.
--------------------------------------------------


In [28]:
# Limiter l'évaluation au premier contexte et ses questions
first_paragraph = dataset["data"][0]["paragraphs"][0]
reference_answers = [qa["answers"][0]["text"] for qa in first_paragraph["qas"]]  # Réponses attendues
questions = [qa["question"] for qa in first_paragraph["qas"]]  # Questions associées

# Évaluer uniquement sur les réponses correspondantes
for idx, (question, reference_answer) in enumerate(zip(questions, reference_answers)):
    generated_answer = all_responses.get(f"response_q{idx + 1}", "")

    # Calcul des métriques
    em = calculate_exact_match(generated_answer, reference_answer)
    f1 = calculate_f1(generated_answer, reference_answer)
    bert = calculate_bertscore(generated_answer, reference_answer, lang="fr")
    rouge_scores = calculate_rouge(generated_answer, reference_answer)
    bleu = calculate_bleu(generated_answer, reference_answer)

    # Affichage
    print(f"Question: {question}")
    print(f"Réponse attendue: {reference_answer}")
    print(f"Réponse générée: {generated_answer}")
    print(f"F1: {f1:.2f}")
    print(f"BERTScore: {bert:.2f}")
    print(f"ROUGE-1: {rouge_scores['rouge1']:.2f}, ROUGE-2: {rouge_scores['rouge2']:.2f}, ROUGE-L: {rouge_scores['rougeL']:.2f}")
    print(f"BLEU: {bleu:.2f}\n{'-'*50}")


Question: Quel astronome a émit l'idée en premier d'une planète entre les orbites de Mars et Jupiter ?
Réponse attendue: Johann Elert Bode
Réponse générée: L'idée d'une planète entre les orbites de Mars et Jupiter fut proposée pour la première fois par Johann Elert Bode en 1768.
F1: 0.24
BERTScore: 0.69
ROUGE-1: 0.19, ROUGE-2: 0.14, ROUGE-L: 0.19
BLEU: 0.04
--------------------------------------------------
Question: Quel astronome découvrit Uranus ?
Réponse attendue: William Herschel
Réponse générée: L'astronome qui découvrit Uranus était William Herschel.
F1: 0.44
BERTScore: 0.72
ROUGE-1: 0.36, ROUGE-2: 0.22, ROUGE-L: 0.36
BLEU: 0.03
--------------------------------------------------
Question: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse attendue: plusieurs autres astéroïdes
Réponse générée: Les vingt-quatre astronomes n'ont pas découvert Cérès, mais ont trouvé plusieurs autres astéroïdes.
F1: 0.38
BERTScore: 0.69
ROUGE-1: 0.40, ROUGE-2: 0.35, ROUGE-L:

#Temperature=0.9

In [29]:
# Charger le premier contexte et ses questions
first_context = dataset["data"][0]["paragraphs"][0]["context"]
questions = [qa["question"] for qa in dataset["data"][0]["paragraphs"][0]["qas"]]

# Fonction pour traiter chaque question avec le même contexte
def process_questions(context, questions, split_texts, method="late_chunking", top_k=5, dense_model=dense_model):
    responses = {}

    for idx, question in enumerate(questions):
        # Effectuer la recherche selon la méthode choisie
        if method == "early_chunking":
            relevant_chunks = early_chunking(question, split_texts, top_k=top_k)
        elif method == "hybrid_search":
            relevant_chunks = hybrid_search(question, split_texts, dense_model=dense_model, top_k=top_k)
        elif method == "late_chunking":
            relevant_chunks = late_chunking(question,first_context)
        else:
            relevant_chunks = split_texts  # Si aucune méthode n'est spécifiée, prendre tous les chunks

        # Combiner les chunks pour créer un contexte
        context_combined = "\n---\n".join(relevant_chunks)

        # Construire le prompt pour le LLM
        prompt = f"""
        Voici des extraits pertinents :

        {context}

        Question : {question}

        Développe une réponse courte en français pertinente sans dépasser les 150 mots.
        Évite les répétitions et ne dépasse pas le nombre de mots.
        La réponse doit être dans la même langue que la question.
        J'insiste respecte le nombre de mots donc je veux des réponses les plus courte.

        Réponse :
        """

        # Envoyer au modèle LLM
        inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
        outputs = model.generate(
            **inputs,
            max_new_tokens=150,
            temperature=0.9,
            top_p=0.9,
            top_k=50,
            do_sample=True,
        )

        # Décoder et nettoyer la réponse
        response = tokenizer.decode(outputs[0], skip_special_tokens=True)
        cleaned_response = response.split("Réponse :")[-1].strip()
        responses[f"response_q{idx + 1}"] = cleaned_response

    return responses

# Tester la fonction sur le premier contexte et les questions associées
split_texts = [first_context]
all_responses = process_questions(
    first_context,
    questions,
    split_texts,
    method="late_chunking",
    top_k=5,
)


for idx, question in enumerate(questions):
    response_key = f"response_q{idx + 1}"
    response = all_responses[response_key]
    print(f"Question {idx + 1}: {question}")
    print(f"Réponse {idx + 1}: {response.strip()}")
    print("-" * 50)




Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


Question 1: Quel astronome a émit l'idée en premier d'une planète entre les orbites de Mars et Jupiter ?
Réponse 1: L'astronome qui a émis l'idée en premier d'une planète entre les orbites de Mars et Jupiter était Johann Elert Bode.
--------------------------------------------------
Question 2: Quel astronome découvrit Uranus ?
Réponse 2: L'astronome britannique William Herschel découvrit Uranus en 1781.
--------------------------------------------------
Question 3: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse 3: Vingt-quatre astronomes ont découvert plusieurs autres astéroïdes à l'aide d'une recherche méthodique dirigée par Franz Xaver von Zach en 1800, mais ils n'ont pas découvert Cérès.
--------------------------------------------------
Question 4: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse 4: Les vingt-quatre astronomes ont découvert plusieurs autres astéroïdes au-delà des orbites de Mars et Jupiter, confirmant ainsi

In [30]:
# Limiter l'évaluation au premier contexte et ses questions
first_paragraph = dataset["data"][0]["paragraphs"][0]
reference_answers = [qa["answers"][0]["text"] for qa in first_paragraph["qas"]]  # Réponses attendues
questions = [qa["question"] for qa in first_paragraph["qas"]]  # Questions associées

# Évaluer uniquement sur les réponses correspondantes
for idx, (question, reference_answer) in enumerate(zip(questions, reference_answers)):
    generated_answer = all_responses.get(f"response_q{idx + 1}", "")

    # Calcul des métriques
    em = calculate_exact_match(generated_answer, reference_answer)
    f1 = calculate_f1(generated_answer, reference_answer)
    bert = calculate_bertscore(generated_answer, reference_answer, lang="fr")
    rouge_scores = calculate_rouge(generated_answer, reference_answer)
    bleu = calculate_bleu(generated_answer, reference_answer)

    # Affichage
    print(f"Question: {question}")
    print(f"Réponse attendue: {reference_answer}")
    print(f"Réponse générée: {generated_answer}")
    print(f"F1: {f1:.2f}")
    print(f"BERTScore: {bert:.2f}")
    print(f"ROUGE-1: {rouge_scores['rouge1']:.2f}, ROUGE-2: {rouge_scores['rouge2']:.2f}, ROUGE-L: {rouge_scores['rougeL']:.2f}")
    print(f"BLEU: {bleu:.2f}\n{'-'*50}")


Question: Quel astronome a émit l'idée en premier d'une planète entre les orbites de Mars et Jupiter ?
Réponse attendue: Johann Elert Bode
Réponse générée: L'astronome qui a émis l'idée en premier d'une planète entre les orbites de Mars et Jupiter était Johann Elert Bode.
F1: 0.26
BERTScore: 0.71
ROUGE-1: 0.21, ROUGE-2: 0.15, ROUGE-L: 0.21
BLEU: 0.02
--------------------------------------------------
Question: Quel astronome découvrit Uranus ?
Réponse attendue: William Herschel
Réponse générée: L'astronome britannique William Herschel découvrit Uranus en 1781.
F1: 0.40
BERTScore: 0.69
ROUGE-1: 0.33, ROUGE-2: 0.20, ROUGE-L: 0.33
BLEU: 0.06
--------------------------------------------------
Question: Quelles furent les découvertes finales des vingt-quatre astronomes ?
Réponse attendue: plusieurs autres astéroïdes
Réponse générée: Vingt-quatre astronomes ont découvert plusieurs autres astéroïdes à l'aide d'une recherche méthodique dirigée par Franz Xaver von Zach en 1800, mais ils n'ont p