# Finetuning d'un LLM √† la fa√ßon du Conte de Monte Christo

L'objectif de ce projet et de s'entrainer √† faire du finetunig de LLM. Pour cela on utilisera la m√©thode du QLoRA afin de ne pas avoir √† entrainer totalement un LLM 'de z√©ro'.

## Nettoyage du texte pour former un dataset : 

- Supprimer les pages inutiles (Titre, sommaire, notes, etc...) ==> rawText_*.txt
- Ne garder que les dialogues ==> rawText_*txt
- Identifier puis √©crire dans un fichier les citations du Comte de Monte Cristo (avec phrase pr√©c√©dente) ==> dataset_CMC.JSONL



In [42]:
# Filtrage des dialogues (to cleanText_*.txt)

import os
import re


for i in range(1, 4):

    nom_fichier = f"media/raw/rawText_{i}.txt"
    with open(nom_fichier, 'r', encoding='utf-8') as f:
        lignes = f.readlines()

    # Filtrer les lignes vides
    lignes_propres = [ligne for ligne in lignes if ligne.strip()]
    
    with open(f"media/raw/cleanBlankLignes_{i}.txt", 'w', encoding='utf-8') as f:
        f.writelines(lignes_propres)
    
    print(f"Fichier {i} nettoy√© !")

#  Filtrer les dialogues (contenus dans ¬´ ¬ª)

for i in range(1, 4):

    nom_fichier = f"media/raw/cleanBlankLignes_{i}.txt"
    with open(nom_fichier, 'r', encoding='utf-8') as f:
        contenu = f.read()

    # Extraire les dialogues entre ¬´ et ¬ª
    dialogues = re.findall(r'¬´(.*?)¬ª', contenu, re.DOTALL)

    # √âcrire les dialogues extraits dans le fichier
    with open(f"media/raw/cleanText_{i}.txt", 'w', encoding='utf-8') as f:
        for dialogue in dialogues:
            f.write(dialogue.strip() + '\n')

    print(f"Dialogues extraits dans le fichier {i} !")

# Fusion en un seul fichier

with open('media/cleanDataset.txt', 'w', encoding='utf-8') as fichier_final:
    for i in range(1, 4):
        nom_fichier = f"media/raw/cleanText_{i}.txt"
        with open(nom_fichier, 'r', encoding='utf-8') as f:
            contenu = f.read()
            fichier_final.write(contenu + '\n')


Fichier 1 nettoy√© !
Fichier 2 nettoy√© !
Fichier 3 nettoy√© !
Dialogues extraits dans le fichier 1 !
Dialogues extraits dans le fichier 2 !
Dialogues extraits dans le fichier 3 !


In [5]:
import os
import json
import time
from tqdm import tqdm
from dotenv import load_dotenv
from google import genai
from google.genai import types

# 1. Configuration
load_dotenv()
API_KEY = os.getenv("GEMINI_API_KEY")
client = genai.Client(api_key=API_KEY)

SYSTEM_PROMPT = """Tu es un expert en curation de donn√©es litt√©raires. 
Ta mission : extraire les r√©pliques d'EDMOND DANT√àS (Le Comte).
- Ignore les serviteurs.
- D√©veloppe l'output en 3-5 phrases (style XIXe si√®cle).
- R√©ponds UNIQUEMENT en JSON (liste d'objets)."""

def run_extraction_with_resume():
    input_path = "media/cleanDataset.txt" 
    output_path = "dantes_dataset_elaborated.jsonl"
    checkpoint_path = "checkpoint_dantes.txt" # Notre marque-page
    chunk_size = 100 

    if not os.path.exists(input_path):
        print(f"‚ùå Erreur : {input_path} introuvable.")
        return

    # Lecture du fichier source
    with open(input_path, "r", encoding="utf-8") as f:
        lines = [line.strip() for line in f.readlines() if line.strip()]

    # --- LOGIQUE DE REPRISE ---
    start_index = 0
    if os.path.exists(checkpoint_path):
        with open(checkpoint_path, "r") as f:
            try:
                start_index = int(f.read().strip())
                print(f"üîÑ Reprise d√©tect√©e √† la ligne {start_index}.")
            except:
                print("‚ö†Ô∏è Checkpoint corrompu, on repart de z√©ro.")

    total_lines = len(lines)
    total_steps = (total_lines - start_index + chunk_size - 1) // chunk_size

    # 2. Boucle d'extraction
    # On commence la boucle √† 'start_index'
    with tqdm(total=total_lines, initial=start_index, desc="Curation") as pbar:
        for i in range(start_index, total_lines, chunk_size):
            chunk = lines[i : i + chunk_size]
            prompt_text = "\n".join(chunk)
            
            try:
                response = client.models.generate_content(
                    model="gemini-2.0-flash",
                    config=types.GenerateContentConfig(
                        system_instruction=SYSTEM_PROMPT,
                        response_mime_type="application/json",
                        temperature=0.7
                    ),
                    contents=f"Extraits √† traiter :\n{prompt_text}"
                )
                
                # Nettoyage et sauvegarde des donn√©es
                raw_text = response.text.strip()
                if raw_text.startswith("```"):
                    raw_text = raw_text.split("json")[-1].split("```")[0].strip()
                
                data = json.loads(raw_text)
                
                if isinstance(data, list) and data:
                    with open(output_path, "a", encoding="utf-8") as out_file:
                        for entry in data:
                            out_file.write(json.dumps(entry, ensure_ascii=False) + "\n")
                
                # --- MISE √Ä JOUR DU CHECKPOINT ---
                # On enregistre l'indice du prochain bloc √† traiter
                with open(checkpoint_path, "w") as f_check:
                    f_check.write(str(i + chunk_size))

                pbar.update(len(chunk))
                time.sleep(6)

            except Exception as e:
                tqdm.write(f"‚ö†Ô∏è Erreur lot ligne {i} : {e}")
                time.sleep(10)

    print(f"\n‚ú® Extraction termin√©e ou mise en pause. Checkpoint : {checkpoint_path}")

if __name__ == "__main__":
    run_extraction_with_resume()

üîÑ Reprise d√©tect√©e √† la ligne 22900.


Curation: 22900it [00:00, ?it/s]


‚ú® Extraction termin√©e ou mise en pause. Checkpoint : checkpoint_dantes.txt





In [6]:
# Normalisation du fichier d'entrainement :

import json

def finalize_dataset(input_file, output_file):
    with open(input_file, 'r', encoding='utf-8') as f, \
         open(output_file, 'w', encoding='utf-8') as out:
        
        for line in f:
            data = json.loads(line)
            # On unifie les cl√©s (speaker ou character -> instruction)
            # On utilise le contexte pour fabriquer une consigne
            context = data.get("context", "Le Comte s'exprime avec noblesse.")
            dialogue = data.get("dialogue", "")
            
            # Nouveau format "Instruct"
            new_entry = {
                "instruction": f"R√©ponds avec le ton du Comte de Monte-Cristo. Contexte : {context}",
                "output": dialogue
            }
            
            out.write(json.dumps(new_entry, ensure_ascii=False) + "\n")

finalize_dataset("dantes_dataset_elaborated.jsonl", "CMC_dataset.jsonl")

In [8]:
import json
import re

def ultra_clean_dataset(input_file, output_file):
    cleaned_data = []
    
    # Liste de mots √† supprimer (incises courantes)
    incises = [", dit le comte", ", dit-il", ", s'√©cria-t-il", ", r√©pondit Dant√®s", ", reprit Monte-Cristo"]

    with open(input_file, 'r', encoding='utf-8') as f:
        for line in f:
            data = json.loads(line)
            output = data.get("output")

            # 1. On ignore les vides ou null
            if not output or output.strip() == "" or output == "null":
                continue
            
            # 2. Nettoyage des incises
            for incise in incises:
                output = output.replace(incise, "")
            
            # 3. Nettoyage des guillemets et espaces
            output = output.replace('¬´', '').replace('¬ª', '').replace('"', '').strip()
            
            # 4. Mise √† jour et sauvegarde
            data["output"] = output
            cleaned_data.append(data)

    with open(output_file, 'w', encoding='utf-8') as out:
        for entry in cleaned_data:
            out.write(json.dumps(entry, ensure_ascii=False) + "\n")
            
    print(f"Nettoyage termin√© : {len(cleaned_data)} lignes valides conserv√©es sur 3080.")

ultra_clean_dataset("CMC_dataset.jsonl", "CMC_dataset_FINAL.jsonl")

Nettoyage termin√© : 2718 lignes valides conserv√©es sur 3080.
