# **Projet : Résumé Automatique d'Articles Scientifiques**


### **Nom du Groupe Kaggle**
- **DataHub**




### **Contexte**

Dans ce projet, nous avons développé un système de génération automatique de résumés d'articles scientifiques dans le domaine médical, en utilisant des techniques avancées de traitement automatique du langage ( NLP). Notre objectif était de produire des résumés concis et précis pour des articles issus d'études observationnelles `(OBS)` et d'essais contrôlés randomisés `(RCT)`, en s'appuyant sur un modèle de langage .

Le travail que nous avons mené s'articule autour des étapes suivantes, que nous avons progressivement améliorées à travers des expérimentations et des itérations avec différents modèles et configurations :

### 1. **Préparation des données**
La première étape de notre travail a consisté à explorer, nettoyer et structurer les données fournies. Les données comprenaient des articles scientifiques complets ainsi que leurs résumés associés pour les ensembles d'entraînement et de validation, tandis que l’ensemble de test ne contenait que les articles. Nous avons préparé ces données pour garantir une compatibilité optimale avec les modèles, en respectant les formats requis pour la tokenisation et en élaborant des prompts spécifiques pour structurer les entrées de manière cohérente.

### 2. **Entraînement du modèle**  
Nous avons initialement débuté avec le modèle **Llama3.1-8b**, un modèle de langage performant appartenant à la famille des modèles LLaMA. Ce choix était motivé par sa capacité à traiter de longues séquences et à générer des résumés complexes, adaptés aux spécificités des articles scientifiques. Grâce à des techniques telles que le fine-tuning avec LoRA et des prompts spécifiques pour les études **OBS** et **RCT**, ce modèle a montré des performances solides dès les premières itérations, notamment sur les métriques comme ROUGE-2.

Un autre facteur ayant influencé notre choix était le **manque de ressources** matérielles locales suffisantes pour l'entraînement de modèles de grande taille. L'obligation d'utiliser des plateformes comme Google Colab ou Kaggle, qui offrent un accès gratuit ou limité à des GPU performants, a renforcé notre décision d'opter pour un modèle comme LLaMA, dont l'entraînement peut être optimisé à l'aide de techniques efficaces comme LoRA pour réduire les coûts en calcul et en mémoire.  

Cependant, dans un souci d'exploration et pour évaluer des alternatives, nous avons décidé d'expérimenter avec le modèle **T5**, un modèle encodeur-décodeur bien établi pour les tâches de génération de texte. Nous avons ajusté plusieurs paramètres, comme l’optimisation des hyperparamètres, l’augmentation de la taille des données d’entraînement et l’utilisation de régularisations spécifiques. Bien que T5 ait produit des résumés cohérents et une compréhension correcte des articles, il n’a pas surpassé les résultats obtenus avec LLaMA, notamment sur des articles complexes nécessitant un traitement précis et détaillé.  

### 3. **Retour vers le modèle LLaMA**  
Face à ces limites avec le modèle T5, nous avons décidé de revenir à **llama-3-1-8b**. En reprenant les expérimentations avec ce modèle, nous avons consolidé nos approches, notamment à travers l’utilisation de prompts spécifiques, l’augmentation de la taille des séquences et une meilleure exploitation des données d’entraînement. Cette transition nous a permis de maximiser les performances et de générer des résumés plus précis et contextualisés, en renforçant les forces de LLaMA adaptées à nos besoins spécifiques.
Nous avions également envisagé de réaliser un fine-tuning séparé pour les études OBS et RCT afin de générer des modèles spécialisés pour chaque type d'article. Cependant, cette approche a rencontré une limitation majeure en raison d'un problème de mémoire insuffisante (erreur : out of memory), lié à la taille importante des données et aux contraintes des GPU disponibles sur les plateformes comme Colab ou Kaggle. Ce problème nous a contraints à abandonner cette idée pour nous concentrer sur des solutions plus adaptées aux ressources disponibles.  


### 4. **Évaluation des performances**
Après l'entraînement, nous avons évalué les résumés générés par le modèle sur l’ensemble de validation en les comparant aux résumés de référence à l’aide de la métrique ROUGE-2. Les résultats obtenus avec **llama-3-1-8b** ont montré une nette amélioration par rapport à ceux de T5. Les abstracts générés étaient plus précis, mieux structurés et reflétaient plus fidèlement les informations essentielles des articles source.

voila les resultats obtenue :

| Modèle     | Score       | Stratégie                          |
|------------|-------------|------------------------------------|
| LLAMA 3.8  | 0.213       | Prompt naïf                       |
|            | 0.22        | Prompt spécifique 1               |
|            | 0.229       | Prompt spécifique 2               |
| T5         | 0.213       | Prompt spécifique 1               |
|            | 0.22        | Prompt spécifique 2               |
| LLAMA 3.8  | **0.233**       | Prompt spécifique pour OBS et RCT |


Dans la deusiéme implimentation de LLAMA (LLAMA 2), nous avons amélioré les performances par rapport à la premiére implémentation (LLAMA 1) en modifiant la manière dont nous avons utilisé les données d'entraînement. Alors que LLAMA 1 se basait sur 80 % des données de l'ensemble d'entraînement, LLAMA 2 a été affiné avec 90 % de ces données, maximisant ainsi l'utilisation des informations disponibles. De plus, pour LLAMA 2, nous avons procédé à une génération dédiée pour les observations (obs)et les traitements contrôlés randomisés (RCT) avec un prompt spécifique en utilisant le modèle préalablement fine-tuné sur LLAMA 1. Cette approche a permis de mieux adapter le modèle à ces tâches spécifiques, tout en exploitant pleinement le potentiel des données et des ajustements effectués dans le processus de fine-tuning.


### 5. **Soumission sur Kaggle**
Enfin, nous avons testé notre modèle sur l’ensemble de test fourni et généré les résumés à soumettre sur Kaggle. Cette étape nous a permis de valider les performances de notre système dans un contexte compétitif. Le modèle **llama-3-1-8b** s'est révélé performant et a permis d’obtenir des résultats compétitifs, en tirant pleinement parti de nos efforts d’affinement.



À travers ce notebook, nous documentons les différentes étapes de notre travail, les choix méthodologiques effectués, ainsi que les résultats obtenus, afin de démontrer la pertinence de notre approche et les compétences acquises dans la mise en œuvre de systèmes basés sur des modèles de langage de grande taille.



# 1. Installation des dépendances et nettoyage
Dans un premier temps, nous allons installer les dépendances nécessaires (y compris **Unsloth**), et désinstaller d’autres packages (torch, torchvision, torchaudio) afin d’éviter tout conflit de versions.
Ensuite, nous réinstallerons torch, torchvision, torchaudio, xformers et unsloth en version compatible CUDA 12.1.

In [None]:
!pip install pip3-autoremove
# Permet d'installer l'outil 'pip3-autoremove' pour désinstaller proprement des packages

!pip-autoremove torch torchvision torchaudio -y
# Désinstalle torch, torchvision, torchaudio pour éviter les conflits de versions

!pip install torch torchvision torchaudio xformers --index-url https://download.pytorch.org/whl/cu121
# Réinstalle torch, torchvision, torchaudio et xformers avec la bonne version CUDA (cu121 ici)

!pip install unsloth
# Installe la librairie 'unsloth' qui facilite l'utilisation et l'inférence rapide des LLM
# (supporte LoRA, QLoRA, multi-modèles, etc.)

Collecting pip3-autoremove
  Downloading pip3_autoremove-1.2.2-py2.py3-none-any.whl.metadata (2.2 kB)
Downloading pip3_autoremove-1.2.2-py2.py3-none-any.whl (6.7 kB)
Installing collected packages: pip3-autoremove
Successfully installed pip3-autoremove-1.2.2
The 'jedi>=0.16' distribution was not found and is required by the application
Skipping jedi
The 'pycairo>=1.16.0' distribution was not found and is required by the application
Skipping pycairo
torch 2.5.1+cu121 (/usr/local/lib/python3.10/dist-packages)
    sympy 1.13.1 (/usr/local/lib/python3.10/dist-packages)
        mpmath 1.3.0 (/usr/local/lib/python3.10/dist-packages)
torchvision 0.20.1+cu121 (/usr/local/lib/python3.10/dist-packages)
    torch 2.5.1+cu121 (/usr/local/lib/python3.10/dist-packages)
        sympy 1.13.1 (/usr/local/lib/python3.10/dist-packages)
            mpmath 1.3.0 (/usr/local/lib/python3.10/dist-packages)
torchaudio 2.5.1+cu121 (/usr/local/lib/python3.10/dist-packages)
    torch 2.5.1+cu121 (/usr/local/lib/py

## 2. Importation et configuration du modèle
Nous utilisons **Unsloth** pour charger un modèle de Haggingface  `llama-3-8b-bnb-4bit` pour faire le finetunig , et activons le RoPE scaling interne si besoin.  
La variable `model_name` spécifie le modèle 4 bits à charger.  
La liste `fourbit_models` est une liste d’exemples de modèles 4 bits déjà prêts sur Hugging Face.

In [None]:


from unsloth import FastLanguageModel
import torch

max_seq_length = 8192  # Définition d'une taille de séquence maximale (auto RoPE scaling activé dans Unsloth)
dtype = None           # None = détection automatique (float16, bfloat16...)
load_in_4bit = True    # Chargement en 4 bits pour réduire la mémoire

fourbit_models = [
    "unsloth/Meta-Llama-3.1-8B-bnb-4bit",
    "unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit",
    "unsloth/Meta-Llama-3.1-70B-bnb-4bit",
    "unsloth/Meta-Llama-3.1-405B-bnb-4bit",
    "unsloth/Mistral-Nemo-Base-2407-bnb-4bit",
    "unsloth/Mistral-Nemo-Instruct-2407-bnb-4bit",
    "unsloth/mistral-7b-v0.3-bnb-4bit",
    "unsloth/mistral-7b-instruct-v0.3-bnb-4bit",
    "unsloth/Phi-3-mini-4k-instruct",
    "unsloth/Phi-3-medium-4k-instruct",
    "unsloth/gemma-2-9b-bnb-4bit",
    "unsloth/gemma-2-27b-bnb-4bit",
]
# Liste de quelques modèles 4 bits déjà quantisés pour téléchargement plus rapide

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/llama-3-8b-bnb-4bit",  # Modèle par défaut
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
)

## 3. Chargement d’un modèle personalisé (!!! À effectuer uniquement si vous avez besoin d'utiliser un modèle déjà présent en local.)


Le bloc ci-dessous illustre comment **télécharger** un fichier zip contenant un modèle depuis Google Drive, puis le **dézipper**, et enfin le **charger** en mode inférence avec Unsloth.

In [None]:
%%capture
!gdown https://drive.google.com/uc?id=1IS9Reif7U6NM5f6sNU2SF6J5vq8lHUvr -O model.zip
!unzip model.zip -d model_trained

In [None]:
from unsloth import FastLanguageModel
import torch
max_seq_length = 8192  # On peut choisir n'importe quelle longueur (auto RoPE scaling)
dtype = None  # détection auto
load_in_4bit = True

fourbit_models = [
    "unsloth/Meta-Llama-3.1-8B-bnb-4bit",
    "unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit",
    "unsloth/Meta-Llama-3.1-70B-bnb-4bit",
    "unsloth/Meta-Llama-3.1-405B-bnb-4bit",
    "unsloth/Mistral-Nemo-Base-2407-bnb-4bit",
    "unsloth/Mistral-Nemo-Instruct-2407-bnb-4bit",
    "unsloth/mistral-7b-v0.3-bnb-4bit",
    "unsloth/mistral-7b-instruct-v0.3-bnb-4bit",
    "unsloth/Phi-3-mini-4k-instruct",
    "unsloth/Phi-3-medium-4k-instruct",
    "unsloth/gemma-2-9b-bnb-4bit",
    "unsloth/gemma-2-27b-bnb-4bit",
]

if True:
    model, tokenizer = FastLanguageModel.from_pretrained(
        model_name = "model_trained",  # Chemin où on a dézippé le modèle
        max_seq_length = max_seq_length,
        dtype = dtype,
        load_in_4bit = load_in_4bit,
    )
    FastLanguageModel.for_inference(model)  # 2x plus rapide en inférence

==((====))==  Unsloth 2025.1.5: Fast Llama patching. Transformers: 4.47.1.
   \\   /|    GPU: Tesla T4. Max memory: 14.748 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.5.1+cu121. CUDA: 7.5. CUDA Toolkit: 12.1. Triton: 3.1.0
\        /    Bfloat16 = FALSE. FA [Xformers = 0.0.29.post1. FA2 = False]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


## 4. Activation des LoRA adapters (PEFT)
Nous avons ajouté des adaptateurs LoRA (Low-Rank Adaptation) pour fine-tuner uniquement 1 % à 10 % des paramètres du modèle. Bien que nous ayons initialement prévu de fine-tuner jusqu’à 30 % des paramètres, des contraintes liées à la mémoire disponible nous ont obligés à réduire cette proportion à 10 %. Cette approche permet néanmoins de réaliser des économies significatives en mémoire et en calcul tout en maintenant de bonnes performances.

In [None]:
model = FastLanguageModel.get_peft_model(
    model,
    r = 16,  # Paramètre LoRA
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],
    lora_alpha = 16,
    lora_dropout = 0,
    bias = "none",
    use_gradient_checkpointing = "unsloth",
    random_state = 3407,
    use_rslora = False,
    loftq_config = None,
)

## 5. Préparation des données (Observational Studies, RCT, etc.)
Nous chargeons ici nos fichiers contenant les articles et leurs abstracts, que nous transformons en Dataset de Hugging Face. Une fonction formatting_prompts_func est ensuite appliquée pour préparer les entrées du modèle. Cependant, certains articles ne disposant pas d'abstract, ils ont été exclus du processus afin de garantir la cohérence et la qualité des données utilisées pour l'entraînement.

In [None]:
import os
from transformers import pipeline, set_seed
import matplotlib.pyplot as plt
from datasets import load_dataset
import pandas as pd
from datasets import load_dataset, Dataset, DatasetDict
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
import nltk
from nltk.tokenize import sent_tokenize
from tqdm import tqdm
import torch
import re

nltk.download("punkt")

def extraire_id_nom(nom_fichier):
    match = re.search(r'(\d+)', nom_fichier)
    if match:
        return match.group(1)
    return None

def charger_donnees(article_dir, abstract_dir=None, is_test=False):
    data = []
    i=0
    for filename in os.listdir(article_dir):
        if filename.startswith("article-") and filename.endswith(".txt"):
            filename_clean = filename.replace(" ", "")
            article_id = extraire_id_nom(filename_clean)
            if article_id:
                article_path = os.path.join(article_dir, filename)
                with open(article_path, 'r', encoding='ISO-8859-1') as f:
                    article_content = f.read()

                if not is_test and abstract_dir:
                    abstract_filename = f"abstract-{article_id}.txt"
                    abstract_path = os.path.join(abstract_dir, abstract_filename)
                    if os.path.exists(abstract_path):
                        with open(abstract_path, 'r', encoding='ISO-8859-1') as f:
                            abstract_content = f.read()
                        i += 1
                        data.append({
                            "id": int(article_id),
                            "article": article_content,
                            "abstract": abstract_content
                        })
                else:
                    data.append({
                        "id": int(article_id),
                        "article": article_content,
                        "abstract": None
                    })
    print(i)
    return data




[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Downloading...
From: https://drive.google.com/uc?id=1JJp_wZF9R-xB7b0zmK1ed_jNc7oGs9tU
To: /content/data.zip
100% 10.6M/10.6M [00:00<00:00, 18.8MB/s]
Archive:  data.zip
   creating: data/train/
   creating: data/train/OBS/
  inflating: data/train/OBS/.DS_Store  
   creating: data/train/OBS/.ipynb_checkpoints/
   creating: data/train/OBS/abstracts_OBS/
   creating: data/train/OBS/abstracts_OBS/.ipynb_checkpoints/
  inflating: data/train/OBS/abstracts_OBS/.ipynb_checkpoints/abstract-23647022-checkpoint.txt  
  inflating: data/train/OBS/abstracts_OBS/.ipynb_checkpoints/abstract-24095905-checkpoint.txt  
  inflating: data/train/OBS/abstracts_OBS/.ipynb_checkpoints/abstract-24279685-checkpoint.txt  
  inflating: data/train/OBS/abstracts_OBS/.ipynb_checkpoints/abstract-26309192-checkpoint.txt  
  inflating: data/train/OBS/abstracts_OBS/.ipynb_checkpoints/abstract-26595368-checkpoint.txt  
  inflating: data/train/OBS/abstracts_OBS/.ipynb_checkpoints/abstract-26651914-checkpoint.txt  
  inflati

Map:   0%|          | 0/836 [00:00<?, ? examples/s]

Dataset({
    features: ['id', 'article', 'abstract', 'text'],
    num_rows: 836
})

In [None]:
# chargement des donneés

!gdown https://drive.google.com/uc?id=1JJp_wZF9R-xB7b0zmK1ed_jNc7oGs9tU -O data.zip
!unzip data.zip -d data

**Chargement des donneés de train**

In [None]:
# Chemins vers les répertoires de train
train_obs_articles = "data/train/OBS/articles_OBS"
train_obs_abstracts = "data/train/OBS/abstracts_OBS"
train_rct_articles = "data/train/RCT/articles_RCT"
train_rct_abstracts = "data/train/RCT/abstracts_RCT"

# Charger les données OBS et RCT
train_obs_data = charger_donnees(train_obs_articles, train_obs_abstracts)
train_rct_data = charger_donnees(train_rct_articles, train_rct_abstracts)

# Combiner les données d'entraînement
train_data = train_obs_data + train_rct_data

# Créer le Dataset d'entraînement
train_dataset = Dataset.from_list(train_data)
train_dataset


In [None]:

# Diviser le dataset en "train" et "test"
train_tmp = train_dataset.train_test_split(test_size=0.05, seed=42)
dataset_dict = DatasetDict({
    "train": train_tmp['train'],
    "test": train_tmp['test']
})
dataset_dict

In [None]:

# Prompt principal
medical_prompt = """Below is a detailed scientific article from the medical field.
                    Summarize the article into a concise abstract by focusing on the key elements related to the study, such as the objectives, methods, results, and conclusions...

                    ### Article:
                    {}

                    ### Abstract:
                    {}
"""
EOS_TOKEN = tokenizer.eos_token

def formatting_prompts_func(examples):
    articles = examples["article"]
    abstracts = examples["abstract"]
    texts = []
    for article, abstract in zip(articles, abstracts):
        text = medical_prompt.format(article, abstract) + EOS_TOKEN
        texts.append(text)
    return {"text": texts}

dataset = dataset_dict['train']
dataset = dataset.map(formatting_prompts_func, batched=True)
dataset


**Chargement des données de test**

In [None]:
!pip install tqdm

# Chemins vers les répertoires de test
test_obs_articles = "data/test/OBS_test/articles_OBS_test"
test_rct_articles = "data/test/RCT_test/articles_RCT_test"

test_obs_data = charger_donnees(test_obs_articles)
test_rct_data = charger_donnees(test_rct_articles)

test_dataset_obs = Dataset.from_list(test_obs_data)
test_dataset_rct = Dataset.from_list(test_rct_data)

0
0


## 6. Entraînement du modèle avec SFTTrainer (TRL)
Nous allons utiliser la classe `SFTTrainer` de la librairie **TRL** pour fine-tuner notre modèle avec les données préparées.  
Le code ci-dessous indique un paramétrage simple ; ajustez `max_steps`, `num_train_epochs`, etc., selon vos besoins.

In [None]:
from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported

trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = dataset,
    dataset_text_field = "text",
    max_seq_length = max_seq_length,
    dataset_num_proc = 2,
    args = TrainingArguments(
        per_device_train_batch_size = 4,
        gradient_accumulation_steps = 4,
        warmup_steps = 5,
        max_steps = 80,  # on peut augmenter selon le besoin pour ameloirer les performances de modéle
        learning_rate = 2e-4,
        fp16 = not is_bfloat16_supported(),
        bf16 = is_bfloat16_supported(),
        logging_steps = 1,
        optim = "adamw_8bit",
        weight_decay = 0.01,
        lr_scheduler_type = "linear",
        seed = 3407,
        output_dir = "outputs",
        report_to = "none", # ou "wandb" si vous utilisez W&B
    ),
)

In [None]:
#@title Show current memory stats
gpu_stats = torch.cuda.get_device_properties(0)
start_gpu_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
max_memory = round(gpu_stats.total_memory / 1024 / 1024 / 1024, 3)
print(f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB.")
print(f"{start_gpu_memory} GB of memory reserved.")

torch.cuda.empty_cache()

In [None]:
# lancer l'entrainement
trainer_stats = trainer.train()

## 7. Sauvegarde du modèle et du tokenizer
Après l’entraînement, on peut sauvegarder le modèle et le tokenizer, puis zipper le dossier pour le récupérer.

In [None]:
# Sauvegarde du modèle entraîné
trainer.model.save_pretrained("trained_model")

# Sauvegarde du tokenizer
trainer.tokenizer.save_pretrained("trained_model")

import shutil
model_dir = "trained_model"
zip_file_name = "trained_model.zip"

shutil.make_archive(base_name=zip_file_name.replace(".zip", ""), format="zip", root_dir=model_dir)
print(f"Le modèle a été compressé en {zip_file_name}")

## 8. Passage en mode inférence et préparation des prompt
On peut à présent activer le mode **inference** de *Unsloth*, qui accélère le modèle en 2x.

In [None]:
from unsloth import FastLanguageModel
model = FastLanguageModel.for_inference(model)

medical_prompt_obs = """Below is a detailed scientific article from the medical field reporting the findings of an observational study. Summarize the article into a concise abstract by focusing on the key elements specific to observational research, including the study design, population, key outcomes, and their implications.

1. What was the primary objective of the observational study or the research question being addressed?
2. What was the study design (e.g., cohort, case-control, cross-sectional), the population studied, and the key inclusion/exclusion criteria?
3. What were the main findings, including key statistical measures (e.g., odds ratios, hazard ratios, confidence intervals) and outcomes observed?
4. What are the implications of the findings for clinical practice, public health, or future research? Are there limitations or contextual factors to consider when interpreting the results?

Please summarize these key points into a concise abstract, typically under 500 words, while maintaining clarity and scientific accuracy.


### Article:
{}

### Abstract:
{}
"""

medical_prompt_rct = """Below is a detailed scientific article from the medical field reporting the findings of a randomized controlled trial (RCT). Summarize the article into a concise abstract by focusing on the key elements specific to RCTs, including the study objectives, methods, key outcomes, and their implications.
1. What was the primary objective of the RCT or the hypothesis being tested?
2. What was the study design (e.g., parallel, crossover, cluster-randomized), including the randomization method, blinding approach, and intervention/control arms?
3. What was the study population, including sample size, inclusion/exclusion criteria, and any stratification factors?
4. What were the main findings, including primary and secondary outcomes, key statistical measures (e.g., relative risk, confidence intervals, p-values), and any adverse events?
5. What are the clinical or scientific implications of the findings? Were there recommendations for practice, future research, or policy changes? Mention any notable limitations that could impact interpretation.
### Article:
{}
### Abstract:
{}
"""


##09. Génération d’abstracts

On montre ici comment générer un résumé pour un article.  

`generate_abstract` est utilisée pour générer des résumés d'articles en s'appuyant sur le modèle préentraîné et finetuné. Elle fonctionne en utilisant un prompt médical spécifique `medical_prompt` et un ensemble de données contenant les articles.

In [None]:
import csv
from tqdm import tqdm

def generate_abstract(dataset, medical_prompt, model=model, tokenizer=tokenizer):
    # Liste finale pour stocker les ID et abstracts générés
    generated_data = []

    # Boucle sur les articles avec leurs IDs
    for article_id, article in tqdm(zip(dataset['id'], dataset['article']), total=len(dataset['article'])):
        # Préparer l'entrée pour le modèle
        inputs = tokenizer(
            [
                medical_prompt.format(
                    article,  # Insérer l'article
                    "",       # Laisser l'abstract vide pour la génération
                )
            ], return_tensors="pt",
            truncation=True,  # Tronquer les entrées trop longues
            max_length=8192 - 512,  # Ajuster la longueur maximale en tenant compte de max_new_tokens
        ).to("cuda")
        print('id -> ', article_id)
        # Générer le résumé
        outputs = model.generate(**inputs, max_new_tokens=512, use_cache=True)

        # Décoder la sortie
        decoded_output = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0]

        # Extraire la partie "Abstract" : Après "### Abstract:"
        if "### Abstract:" in decoded_output:
            abstract = decoded_output.split("### Abstract:")[1].strip()  # Récupérer tout ce qui suit
            print("abs")
        else:
            abstract = decoded_output.strip()  # Si pas de structure claire, prendre tout4
            print("not abs")

        # Ajouter les données sous forme de dictionnaire
        generated_data.append({"id": article_id, "abstract": abstract})
    return generated_data

In [None]:
generated_data_obs = generate_abstract(test_dataset_obs, medical_prompt_obs)
generated_data_rct = generate_abstract(test_dataset_rct, medical_prompt_rct)

  0%|          | 0/25 [00:00<?, ?it/s]

id ->  35157313


  4%|▍         | 1/25 [00:53<21:25, 53.56s/it]

abs
id ->  38627831


  8%|▊         | 2/25 [01:52<21:49, 56.91s/it]

abs
id ->  38585623


 12%|█▏        | 3/25 [02:41<19:30, 53.20s/it]

abs
id ->  34555924


 16%|█▌        | 4/25 [03:17<16:16, 46.51s/it]

abs
id ->  36906849


 20%|██        | 5/25 [04:04<15:30, 46.53s/it]

abs
id ->  37870070


 24%|██▍       | 6/25 [04:53<15:01, 47.47s/it]

abs
id ->  37698611


 28%|██▊       | 7/25 [05:58<15:54, 53.01s/it]

abs
id ->  37586661


 32%|███▏      | 8/25 [06:39<13:59, 49.41s/it]

abs
id ->  38294526


 36%|███▌      | 9/25 [07:37<13:50, 51.90s/it]

abs
id ->  38296595


 40%|████      | 10/25 [08:16<12:01, 48.12s/it]

abs
id ->  37226713


 44%|████▍     | 11/25 [09:02<11:03, 47.42s/it]

abs
id ->  38350309


 48%|████▊     | 12/25 [09:36<09:22, 43.25s/it]

abs
id ->  38030736


 52%|█████▏    | 13/25 [10:38<09:47, 48.94s/it]

abs
id ->  37924841


 56%|█████▌    | 14/25 [11:30<09:07, 49.78s/it]

abs
id ->  38649906


 60%|██████    | 15/25 [12:19<08:17, 49.73s/it]

abs
id ->  38180993


 64%|██████▍   | 16/25 [13:12<07:35, 50.57s/it]

abs
id ->  37450671


 68%|██████▊   | 17/25 [14:01<06:40, 50.04s/it]

abs
id ->  38664763


 72%|███████▏  | 18/25 [14:47<05:42, 48.94s/it]

abs
id ->  38622608


 76%|███████▌  | 19/25 [15:35<04:51, 48.63s/it]

abs
id ->  28278130


 80%|████████  | 20/25 [16:19<03:56, 47.26s/it]

abs
id ->  38536065


 84%|████████▍ | 21/25 [17:15<03:19, 49.95s/it]

abs
id ->  38289867


 88%|████████▊ | 22/25 [18:20<02:42, 54.28s/it]

abs
id ->  37580243


 92%|█████████▏| 23/25 [19:07<01:44, 52.25s/it]

abs
id ->  37578507


 96%|█████████▌| 24/25 [20:22<00:58, 58.97s/it]

not abs
id ->  38655251


100%|██████████| 25/25 [21:14<00:00, 50.98s/it]


abs


  0%|          | 0/25 [00:00<?, ?it/s]

id ->  38668732


  4%|▍         | 1/25 [01:00<24:14, 60.60s/it]

abs
id ->  38446126


  8%|▊         | 2/25 [02:06<24:25, 63.70s/it]

abs
id ->  38184526


 12%|█▏        | 3/25 [02:53<20:35, 56.15s/it]

abs
id ->  38117526


 16%|█▌        | 4/25 [03:50<19:45, 56.45s/it]

abs
id ->  38218840


 20%|██        | 5/25 [04:59<20:22, 61.11s/it]

not abs
id ->  34844893


 24%|██▍       | 6/25 [05:51<18:19, 57.89s/it]

abs
id ->  38591920


 28%|██▊       | 7/25 [07:00<18:25, 61.41s/it]

abs
id ->  38060092


 32%|███▏      | 8/25 [08:09<18:06, 63.92s/it]

abs
id ->  35532871


 36%|███▌      | 9/25 [09:02<16:05, 60.37s/it]

abs
id ->  38531621


 40%|████      | 10/25 [10:08<15:31, 62.10s/it]

abs
id ->  35638317


 44%|████▍     | 11/25 [11:17<14:59, 64.28s/it]

abs
id ->  38437855


 48%|████▊     | 12/25 [12:16<13:35, 62.73s/it]

abs
id ->  38197254


 52%|█████▏    | 13/25 [13:25<12:56, 64.71s/it]

not abs
id ->  37991188


 56%|█████▌    | 14/25 [14:16<11:06, 60.55s/it]

abs
id ->  34969647


 60%|██████    | 15/25 [15:01<09:19, 55.93s/it]

abs
id ->  36621009


 64%|██████▍   | 16/25 [15:36<07:26, 49.63s/it]

abs
id ->  38189649


 68%|██████▊   | 17/25 [16:23<06:30, 48.75s/it]

abs
id ->  38609994


 72%|███████▏  | 18/25 [17:32<06:24, 54.89s/it]

not abs
id ->  38417090


 76%|███████▌  | 19/25 [18:12<05:01, 50.32s/it]

abs
id ->  38315470


**Sauvegardé les abstracts generer dans un fichier CSV**

In [None]:
merged_data = generated_data_obs + generated_data_rct

output_csv = "generated_abstracts.csv"

# Écriture dans un fichier CSV
with open(output_csv, mode="w", newline="", encoding="utf-8") as file:
    writer = csv.DictWriter(file, fieldnames=["id", "abstract"])
    writer.writeheader()  # Écrire les noms de colonnes
    writer.writerows(merged_data)  # Écrire les données

print(f"Fichier CSV généré : {output_csv}")

## 10. Tester le modèle sur les données de test
L'objectif ici est de tester les performances du modèle sur les données de test avant de soumettre les résultats finaux sur une plateforme comme Kaggle.

In [None]:
from evaluate import load

data_test = dataset_dict['test']
generated_abstracts_test = generate_abstract(data_test, medical_prompt)

rouge = load("rouge")
scores = rouge.compute(predictions=generated_abstracts_test, references=data_test['abstract'])

print("ROUGE Scores:")
for metric, value in scores.items():
    print(f"{metric}: {value:.7f}")

## Fin du Notebook
---
Ce notebook fournit un **exemple** complet de chargement d’un LLM quantifié en 4 bits, d’ajout des LoRA, de préparation de données (articles médicaux + abstracts), de fine-tuning (SFT), d’évaluation (métrique ROUGE) et d’inférence (génération de résumés).