In [4]:
import fitz  # PyMuPDF
import re
from pathlib import Path
from tqdm import tqdm # Pour une belle barre de progression

# --- Fonctions de nettoyage (celles que nous avons d√©finies pr√©c√©demment) ---
def clean_text(text):
    text = re.sub(r'(\w+)-\n(\w+)', r'\1\2', text)
    text = re.sub(r'Page\s\d+\s(sur|of)\s\d+', '', text, flags=re.IGNORECASE)
    text = re.sub(r'\s+', ' ', text).strip()
    return text

# --- La nouvelle fonction principale ---

def process_all_pdfs_in_directory(directory_path: str) -> str:
    """
    Scanne un r√©pertoire, trouve tous les fichiers .pdf, en extrait le texte,
    le nettoie et retourne une seule cha√Æne de caract√®res contenant tout le texte.
    
    Args:
        directory_path: Le chemin vers le r√©pertoire contenant les PDF.

    Returns:
        Une cha√Æne de caract√®res unique avec le contenu de tous les PDF.
    """
    
    # Utiliser pathlib pour une manipulation de chemin robuste
    path = Path(directory_path)
    
    # 1. Lister tous les fichiers et ne garder que les .pdf
    # path.glob('*.pdf') est un g√©n√©rateur qui trouve tous les fichiers correspondant au motif
    pdf_files = list(path.glob('*.pdf'))
    
    if not pdf_files:
        print(f"‚ö†Ô∏è Aucun fichier PDF trouv√© dans le r√©pertoire : {directory_path}")
        return ""
        
    print(f"‚úÖ Trouv√© {len(pdf_files)} fichier(s) PDF √† traiter.")
    
    all_cleaned_text = []
    
    # 2. Parcourir chaque fichier PDF trouv√© avec une barre de progression
    # tqdm rend le processus beaucoup plus agr√©able √† suivre
    for pdf_path in tqdm(pdf_files, desc="Traitement des PDF"):
        try:
            doc = fitz.open(pdf_path)
            # 3. Extraire le texte de chaque page
            file_text = ""
            for page in doc:
                file_text += page.get_text("text") + "\n"
            doc.close()
            
            # 4. Nettoyer le texte extrait
            cleaned_file_text = clean_text(file_text)
            all_cleaned_text.append(cleaned_file_text)
            
        except Exception as e:
            # G√©rer les erreurs si un PDF est corrompu ou illisible
            print(f"‚ùå Erreur lors du traitement du fichier {pdf_path.name}: {e}")
            
    # 5. Combiner le texte de tous les fichiers en un seul grand texte
    # On ajoute un s√©parateur clair pour marquer la fin d'un document
    return "\n\n<|END_OF_DOCUMENT|>\n\n".join(all_cleaned_text)


# --- Comment l'utiliser dans votre script principal ---

# D√©finir le chemin vers votre r√©pertoire de donn√©es
RAW_DATA_PATH = "$HOME/stage/pdf-rag-project/data/raw" 

# Appeler la fonction pour obtenir tout le texte
full_corpus_text = process_all_pdfs_in_directory(RAW_DATA_PATH)

if full_corpus_text:
    print(f"\nTraitement termin√©. Longueur totale du texte : {len(full_corpus_text)} caract√®res.")
    
    # Maintenant, vous pouvez passer `full_corpus_text` √† votre
    # `RecursiveCharacterTextSplitter` pour cr√©er les chunks.
    # ... la suite de votre pipeline RAG ...

‚ö†Ô∏è Aucun fichier PDF trouv√© dans le r√©pertoire : $HOME/stage/pdf-rag-project/data/raw


In [6]:
import fitz
import re
from pathlib import Path
from tqdm import tqdm


current_path = Path.cwd()
if current_path.name == "notebooks":
    PROJECT_ROOT = current_path.parent
else:
    PROJECT_ROOT = current_path
    
print(f"Racine du projet d√©termin√©e : {PROJECT_ROOT}")


RAW_DATA_PATH = PROJECT_ROOT / "data" / "raw"
PROCESSED_DATA_PATH = PROJECT_ROOT / "data" / "processed"

PROCESSED_DATA_PATH.mkdir(parents=True, exist_ok=True)



def clean_text(text):
    patterns_to_remove = [
        r"IMPACTDEV\s*D√©veloppement de solutions",  # Logo et slogan
        r"\w+-\w+-\d{2}-\d{2}",                    # ID de document comme DMGP-PR-03-01
        r"Date\s*:\s*\d{2}/\d{2}/\d{4}",          # Date comme Date : 04/03/2025
        r"Page\s+\d+\s+sur\s+\d+"                 # Num√©ro de page comme Page 1 sur 3
    ]
    
    for pattern in patterns_to_remove:
        text = re.sub(pattern, "", text, flags=re.IGNORECASE)
    text = re.sub(r'(\w+)-\n(\w+)', r'\1\2', text)
    text = re.sub(r'Page\s\d+\s(sur|of)\s\d+', '', text, flags=re.IGNORECASE)
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

# --- Fonction de traitement (inchang√©e, elle prend un chemin en argument) ---
def process_all_pdfs_in_directory(directory_path: Path) -> str:
    pdf_files = list(directory_path.glob('*.pdf'))
    
    if not pdf_files:
        print(f"‚ö†Ô∏è Aucun fichier PDF trouv√© dans le r√©pertoire : {directory_path}")
        return ""
        
    print(f"‚úÖ Trouv√© {len(pdf_files)} fichier(s) PDF √† traiter dans '{directory_path}'.")
    
    all_cleaned_text = []
    
    for pdf_path in tqdm(pdf_files, desc="Traitement des PDF"):
        try:
            with fitz.open(pdf_path) as doc:
                file_text = ""
                for page in doc:
                    file_text += page.get_text("text") + "\n"
            
            cleaned_file_text = clean_text(file_text)
            all_cleaned_text.append(cleaned_file_text)
            
        except Exception as e:
            print(f"‚ùå Erreur lors du traitement du fichier {pdf_path.name}: {e}")
            
    return "\n\n<|END_OF_DOCUMENT|>\n\n".join(all_cleaned_text)


# --- Point d'entr√©e principal du script ---
if __name__ == "__main__":
    print(f"Racine du projet d√©tect√©e : {PROJECT_ROOT}")
    
    # Appeler la fonction principale avec le chemin que nous avons construit
    full_corpus_text = process_all_pdfs_in_directory(RAW_DATA_PATH)

    if full_corpus_text:
        print(f"\nTraitement termin√©. Longueur totale du texte : {len(full_corpus_text)} caract√®res.")
        
        # Ici, vous continueriez avec le reste de votre pipeline :
        # 1. D√©couper `full_corpus_text` en chunks.
        # 2. Cr√©er les embeddings pour chaque chunk.
        # 3. Construire l'index FAISS.
        # 4. Sauvegarder l'index et les chunks dans PROCESSED_DATA_PATH.
        
        # Exemple de sauvegarde :
        # faiss_index_path = PROCESSED_DATA_PATH / "my_faiss.index"
        # faiss.write_index(index, str(faiss_index_path))
        # print(f"Index FAISS sauvegard√© dans : {faiss_index_path}")
        
    else:
        print("Aucun texte n'a √©t√© trait√©. Fin du script.")

Racine du projet d√©termin√©e : /home/elyes/stage/pdf-rag-project
Racine du projet d√©tect√©e : /home/elyes/stage/pdf-rag-project
‚úÖ Trouv√© 1 fichier(s) PDF √† traiter dans '/home/elyes/stage/pdf-rag-project/data/raw'.


Traitement des PDF: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00, 50.16it/s]


Traitement termin√©. Longueur totale du texte : 1522 caract√®res.





In [2]:
import fitz
import re
from pathlib import Path
from tqdm import tqdm
import difflib

# --- D√©finition des chemins (inchang√©) ---
current_path = Path.cwd()
if current_path.name == "notebooks":
    PROJECT_ROOT = current_path.parent
else:
    PROJECT_ROOT = current_path
print(f"Racine du projet d√©termin√©e : {PROJECT_ROOT}")

RAW_DATA_PATH = PROJECT_ROOT / "data" / "raw"

# --- NOUVELLE STRAT√âGIE DE NETTOYAGE PAGE PAR PAGE ---

def smart_clean_pdf_text(doc: fitz.Document) -> str:
    """
    Nettoie le texte d'un document PDF en traitant chaque page individuellement
    pour supprimer les en-t√™tes et pieds de page, tout en pr√©servant la page de garde.
    """
    
    full_cleaned_text = ""
        
    # 1. D√©finir les motifs d'en-t√™te et de pied de page √† supprimer
    # On utilise des ancres (^ pour d√©but de ligne, $ pour fin de ligne) pour √™tre plus pr√©cis
    header_patterns = [
        re.compile(r"^Proc√©dure\s*\w+-\w+-\d{2}-\d{2}", re.IGNORECASE),
        re.compile(r"^IMPACTDEV D√©veloppement de solutions", re.IGNORECASE)
    ]
    footer_patterns = [
        re.compile(r"Page\s*\d+\s*sur\s*\d+$", re.IGNORECASE),
        re.compile(r"Date\s*:\s*\d{2}/\d{2}/\d{4}$", re.IGNORECASE) # Date semble √™tre dans le footer
    ]

    # 2. Parcourir chaque page du document
    for page_num, page in enumerate(doc):
        page_text = page.get_text("text")
        
        # 3. Laisser la premi√®re page (page_num == 0) presque intacte
        # Elle contient l'historique des versions que nous voulons garder.
        if page_num == 0:
            cleaned_page_text = page_text
        else:
            # Pour les autres pages, on nettoie les en-t√™tes et pieds de page
            lines = page_text.split('\n')
            cleaned_lines = []
            for line in lines:
                is_header_or_footer = False
                # V√©rifier si la ligne correspond √† un motif d'en-t√™te ou de pied de page
                for pattern in header_patterns + footer_patterns:
                    if pattern.search(line.strip()):
                        is_header_or_footer = True
                        break
                
                if not is_header_or_footer:
                    cleaned_lines.append(line)
            
            cleaned_page_text = "\n".join(cleaned_lines)

        # 4. Nettoyage final pour les espaces, etc.
        cleaned_page_text = re.sub(r'(\w+)-\n(\w+)', r'\1\2', cleaned_page_text)
        cleaned_page_text = re.sub(r'(\n\s*){2,}', '\n\n', cleaned_page_text) # Garde les doubles sauts de ligne
        
        full_cleaned_text += cleaned_page_text + "\n"
        
    return full_cleaned_text.strip()


# --- Fonction de visualisation (inchang√©e) ---
def visualize_cleaning_effect(raw_text: str, cleaned_text: str, sample_size: int = 2000):
    print("-" * 50 + "\nüî¨ VISUALISATION DE L'EFFET DU NETTOYAGE üî¨\n" + "-" * 50)
    raw_sample = raw_text[:sample_size]; cleaned_sample = cleaned_text[:sample_size]
    raw_lines = raw_sample.splitlines(); cleaned_lines = cleaned_sample.splitlines()
    diff = difflib.unified_diff(raw_lines, cleaned_lines, fromfile='Texte Brut', tofile='Texte Nettoy√©', lineterm='')
    print("L√©gende : [- Ligne supprim√©e] [+ Ligne ajout√©e]\n")
    for line in diff:
        print(line)
    print("-" * 50)


# --- Ex√©cution principale pour le test ---

pdf_files = list(RAW_DATA_PATH.glob('*.pdf'))

if not pdf_files:
    print(f"‚ö†Ô∏è Aucun fichier PDF trouv√© dans {RAW_DATA_PATH}.")
else:
    pdf_to_test = pdf_files[0]
    print(f"Analyse du fichier de test : {pdf_to_test.name}")
    
    raw_text = ""
    try:
        with fitz.open(pdf_to_test) as doc:
            # On passe l'objet 'doc' entier √† notre nouvelle fonction
            cleaned_text = smart_clean_pdf_text(doc)
            
            # Pour la visualisation, on a besoin du texte brut complet
            for page in doc:
                raw_text += page.get_text("text") + "\n"
        
        visualize_cleaning_effect(raw_text, cleaned_text)

        print("\n Aper√ßu du d√©but du texte NETTOY√â :")
        print("'" + cleaned_text[:200] + "...'")

    except Exception as e:
        print(f"‚ùå Erreur lors du traitement du fichier {pdf_to_test.name}: {e}")

Racine du projet d√©termin√©e : /home/elyes/stage/pdf-rag-project
Analyse du fichier de test : DMGP-PR-03-01 Gestion de version de code.pdf
--------------------------------------------------
üî¨ VISUALISATION DE L'EFFET DU NETTOYAGE üî¨
--------------------------------------------------
L√©gende : [- Ligne supprim√©e] [+ Ligne ajout√©e]

--- Texte Brut
+++ Texte Nettoy√©
@@ -1,11 +1,9 @@
- 
 Proc√©dure 
 DMGP-PR-03-01 
 Gestion de version de code 
 Date : 04/03/2025 
 Page 1 sur3 
- 
- 
+
 Version actuelle 
 Propri√©taire du 
 document 
@@ -16,7 +14,7 @@
 IMPACTDEV 
 Interne 
 Valid√© 
- 
+
 √âtablissement, v√©rification et approbation  
 R√¥le 
 Nom & Pr√©nom 
@@ -25,17 +23,16 @@
 √âtabli par  
 Faiez KTATA 
 DT 
- 
+
 V√©rification 
 Hana GHRIBI 
 RMQ 
- 
+
 Approbation   
 Itebeddine GHORBEL 
 Nebras GHARBI 
 DG 
- 
- 
+
 Historique de versions  
 Version 
 Date 
@@ -58,23 +55,13 @@
 Nebras GHARBI 
 Validation 
 DG 
- 
- 
- 
- 
- 
- 
- 
- 
- 
+
 
  
 Proc√©dure 
 DMGP-PR-03-01 
 G

In [2]:
# Assurez-vous que ces biblioth√®ques sont bien import√©es
from langchain.text_splitter import RecursiveCharacterTextSplitter
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np
import pickle # Pour sauvegarder nos chunks de texte

# --- Point de d√©part : la variable 'full_corpus_text' issue du nettoyage ---
# On s'assure qu'elle n'est pas vide avant de continuer.
if 'full_corpus_text' in locals() and full_corpus_text:
    print("Pr√™t √† passer aux √©tapes de chunking, embedding et indexation.")
else:
    print("‚ö†Ô∏è La variable 'full_corpus_text' est vide ou n'existe pas. Veuillez ex√©cuter la cellule de nettoyage d'abord.")
    # On arr√™te l'ex√©cution de la cellule si le texte n'est pas pr√™t
    # (dans un notebook, vous pouvez simplement ne pas ex√©cuter la suite)


# === √âTAPE 2 : D√âCOUPAGE DU TEXTE (CHUNKING) ===
print("\n--- √âtape 2 : D√©coupage du texte en chunks ---")

# On utilise un d√©coupeur r√©cursif qui essaie de respecter les paragraphes et les phrases.
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=700,      # Taille cible de chaque chunk en caract√®res.
    chunk_overlap=250,    # Nombre de caract√®res de chevauchement entre les chunks.
    length_function=len,
    is_separator_regex=False,
)

chunks = text_splitter.split_text(full_corpus_text)
print(f"‚úÖ Le texte a √©t√© d√©coup√© en {len(chunks)} chunks.")


# === √âTAPE 3 : VECTORISATION (EMBEDDING) ===
print("\n--- √âtape 3 : Cr√©ation des embeddings pour chaque chunk ---")

# On charge le mod√®le d'embedding.
# 'all-MiniLM-L6-v2' est un excellent choix pour d√©marrer : rapide et performant.
# Le mod√®le sera t√©l√©charg√© lors de la premi√®re utilisation.
embedding_model = SentenceTransformer('BAAI/bge-small-en-v1.5', device='cuda')

# On convertit les chunks en vecteurs. Cette op√©ration peut prendre du temps.
# show_progress_bar=True est tr√®s utile pour suivre l'avancement.
chunk_embeddings = embedding_model.encode(chunks, show_progress_bar=True)

print(f"‚úÖ Embeddings cr√©√©s. La forme de la matrice de vecteurs est : {chunk_embeddings.shape}")


# === √âTAPE 4 : INDEXATION DANS FAISS ===
print("\n--- √âtape 4 : Cr√©ation et remplissage de l'index vectoriel FAISS ---")

# Obtenir la dimension des vecteurs (ex: 384 pour 'all-MiniLM-L6-v2')
d = chunk_embeddings.shape[1]

# On cr√©e un index FAISS simple mais tr√®s pr√©cis.
# IndexFlatL2 calcule la distance exacte entre les vecteurs.
index = faiss.IndexFlatL2(d)

# On ajoute nos embeddings √† l'index.
# Ils doivent √™tre convertis en float32 pour FAISS.
index.add(np.array(chunk_embeddings).astype('float32'))

print(f"‚úÖ Index FAISS cr√©√© avec succ√®s. Il contient {index.ntotal} vecteurs.")


# === √âTAPE 5 : SAUVEGARDE DES ARTEFACTS (TR√àS IMPORTANT !) ===
# L'embedding est lent. On sauvegarde les r√©sultats pour ne pas avoir √† le refaire.
print("\n--- √âtape 5 : Sauvegarde de l'index et des chunks ---")

# D√©finir les chemins de sauvegarde dans notre dossier de donn√©es trait√©es
FAISS_INDEX_PATH = PROCESSED_DATA_PATH / "my_documents.index"
CHUNKS_PATH = PROCESSED_DATA_PATH / "my_documents_chunks.pkl"

# Sauvegarder l'index FAISS
faiss.write_index(index, str(FAISS_INDEX_PATH))

# Sauvegarder la liste des chunks de texte avec pickle
with open(CHUNKS_PATH, "wb") as f:
    pickle.dump(chunks, f)

print(f"‚úÖ Index sauvegard√© dans : {FAISS_INDEX_PATH}")
print(f"‚úÖ Chunks sauvegard√©s dans : {CHUNKS_PATH}")
print("\nüéâ Le 'cerveau' de votre RAG est pr√™t et sauvegard√© ! üéâ")

Pr√™t √† passer aux √©tapes de chunking, embedding et indexation.

--- √âtape 2 : D√©coupage du texte en chunks ---
‚úÖ Le texte a √©t√© d√©coup√© en 3 chunks.

--- √âtape 3 : Cr√©ation des embeddings pour chaque chunk ---




Batches:   0%|          | 0/1 [00:00<?, ?it/s]

‚úÖ Embeddings cr√©√©s. La forme de la matrice de vecteurs est : (3, 384)

--- √âtape 4 : Cr√©ation et remplissage de l'index vectoriel FAISS ---
‚úÖ Index FAISS cr√©√© avec succ√®s. Il contient 3 vecteurs.

--- √âtape 5 : Sauvegarde de l'index et des chunks ---
‚úÖ Index sauvegard√© dans : /home/elyes/stage/pdf-rag-project/data/processed/my_documents.index
‚úÖ Chunks sauvegard√©s dans : /home/elyes/stage/pdf-rag-project/data/processed/my_documents_chunks.pkl

üéâ Le 'cerveau' de votre RAG est pr√™t et sauvegard√© ! üéâ
