Import

In [1]:
import os

Fonction load & chunk

In [2]:
def load_text_files(directory: str):
    """
    Charge tout le contenu des fichiers .txt dans un dossier.
    """
    texts = {}
    for filename in os.listdir(directory):
        if filename.endswith(".txt"):
            filepath = os.path.join(directory, filename)
            with open(filepath, "r", encoding="utf-8") as file:
                texts[filename] = file.read()
    return texts

def chunk_text_by_headers(text: str):
    """
    Découpe un texte en chunks basés sur les sections délimitées par "#".
    
    Chaque section démarre par un "#". Le texte à l'intérieur de chaque section est
    ensuite regroupé en un seul chunk.
    
    Args:
        text (str): Le texte à découper.
        
    Returns:
        List[str]: Liste de chunks cohérents.
    """
    chunks = []
    sections = text.split("#")
    
    for section in sections:
        if section.strip():  # Ignore les sections vides
            title, *content = section.strip().split("\n", 1)
            content_text = content[0].strip() if content else ""
            
            # Créer un chunk à partir du titre et du contenu
            chunk = f"#{title.strip()}\n{content_text}"
            chunks.append(chunk)
    
    return chunks

def save_chunks(chunks, output_directory, filename_base):
    """
    Sauvegarde les chunks dans des fichiers .txt séparés.
    """
    os.makedirs(output_directory, exist_ok=True)
    for idx, chunk in enumerate(chunks):
        output_path = os.path.join(output_directory, f"{filename_base}_chunk_{idx + 1}.txt")
        with open(output_path, "w", encoding="utf-8") as file:
            file.write(chunk)
        print(f"Chunk {idx + 1} sauvegardé dans {output_path}")

def main(input_directory: str, output_directory: str):
    """
    Charge les fichiers .txt, effectue le chunking et sauvegarde les chunks.
    """
    # Charger les textes depuis le répertoire
    texts = load_text_files(input_directory)

    # Traiter chaque document
    for filename, text in texts.items():
        print(f"Chunking du fichier : {filename}")
        chunks = chunk_text_by_headers(text)
        filename_base = os.path.splitext(filename)[0]
        save_chunks(chunks, output_directory, filename_base)
    
    return 


In [3]:
if __name__ == "__main__":
    input_directory = "documents"  # Répertoire contenant les fichiers .txt
    output_directory = "chunks"    # Répertoire où sauvegarder les chunks
    main(input_directory, output_directory)

Chunking du fichier : rules.txt
Chunk 1 sauvegardé dans chunks/rules_chunk_1.txt
Chunk 2 sauvegardé dans chunks/rules_chunk_2.txt
Chunk 3 sauvegardé dans chunks/rules_chunk_3.txt
Chunk 4 sauvegardé dans chunks/rules_chunk_4.txt
Chunk 5 sauvegardé dans chunks/rules_chunk_5.txt
Chunking du fichier : faq.txt
Chunk 1 sauvegardé dans chunks/faq_chunk_1.txt
Chunk 2 sauvegardé dans chunks/faq_chunk_2.txt
Chunk 3 sauvegardé dans chunks/faq_chunk_3.txt
Chunk 4 sauvegardé dans chunks/faq_chunk_4.txt
Chunk 5 sauvegardé dans chunks/faq_chunk_5.txt
Chunk 6 sauvegardé dans chunks/faq_chunk_6.txt
Chunk 7 sauvegardé dans chunks/faq_chunk_7.txt
Chunk 8 sauvegardé dans chunks/faq_chunk_8.txt
