## Prétraitement des fichiers
ce bloc de code sert à automatiser le nettoyage et la séparation des fichiers .txt contenus dans le dossier dataset/brut/. L’objectif est de constituer un corpus propre et structuré pour l’entraînement et l’évaluation d’un modèle de ponctuation en chinois classique.

1. Nettoyage du contenu textuel
- Pour chaque fichier : Les lignes situées avant la dernière ligne contenant un astérisque (*) sont supprimées. Cela permet d’éliminer les éventuels en-têtes, introductions ou annotations. Les lignes contenant les caractères ← ou → sont supprimées.
Les sauts de ligne (\n) et les triples espaces ( ) sont supprimés pour obtenir un texte continu.
- Les fichiers du jeu de test sont dépouillés de toute ponctuation, en combinant : la ponctuation occidentale standard (string.punctuation) et une liste complète de ponctuations chinoises traditionnelles (，。、！？：；「」『』（）《》〈〉…—～·*).

Un échantillonnage aléatoire est effectué : 80 % des fichiers sont affectés au jeu d’entraînement, 20 % au jeu de test. Les fichiers du jeu d’entraînement conservent leur ponctuation, pour permettre un apprentissage supervisé correct.

- dataset/train/ pour les fichiers avec ponctuation

- dataset/test/ pour les fichiers sans ponctuation

In [11]:
import os
import random
import string

# Ponctuation chinoise + occidentale
chinese_punctuation = "，。、！？：；「」『』''\"\"（）【】《》〈〉…—～·*   "
all_punctuation = string.punctuation + chinese_punctuation

# Dossiers
base_path = os.path.abspath("dataset")  # chemin vers dataset/
input_folder = os.path.join(base_path, "brut")
train_folder = os.path.join(base_path, "train")
test_folder = os.path.join(base_path, "test")

os.makedirs(train_folder, exist_ok=True)
os.makedirs(test_folder, exist_ok=True)

# Récupérer fichiers .txt
txt_files = sorted([f for f in os.listdir(input_folder) if f.endswith(".txt")])
random.shuffle(txt_files)

# Séparer 20 % test
split_idx = int(0.2 * len(txt_files))
test_files = set(txt_files[:split_idx])
train_files = set(txt_files[split_idx:])

def clean_content(lines):
    last_star_idx = max((i for i, line in enumerate(lines) if '*' in line), default=-1)
    filtered = lines[last_star_idx + 1:] if last_star_idx != -1 else lines
    filtered = [line for line in filtered if '←' not in line and '→' not in line]
    return ''.join(filtered).replace('\n', '').replace('   ', '')

def remove_punctuation(text):
    return ''.join(c for c in text if c not in all_punctuation)

# Traitement
processed = 0
for filename in txt_files:
    path_in = os.path.join(input_folder, filename)
    try:
        with open(path_in, 'r', encoding='utf-8') as f:
            lines = f.readlines()
        content = clean_content(lines)

        if filename in test_files:
            content = remove_punctuation(content)
            path_out = os.path.join(test_folder, filename)
        else:
            path_out = os.path.join(train_folder, filename)

        with open(path_out, 'w', encoding='utf-8') as f:
            f.write(content)

        processed += 1
        print(f"✔ {filename} → {'test' if filename in test_files else 'train'}")

    except Exception as e:
        print(f" Erreur avec {filename} : {e}")

print(f"\n Terminé : {processed} fichiers traités.")
print(f"→ Train : {len(train_files)} fichiers")
print(f"→ Test  : {len(test_files)} fichiers")


✔ 卷二.txt → test
✔ 卷003.txt → test
✔ 卷103.txt → test
✔ 卷036.txt → test
✔ 卷019.txt → test
✔ 卷三十六.txt → test
✔ 卷074.txt → test
✔ 卷十四.txt → test
✔ 卷三十五.txt → test
✔ 卷二十二.txt → test
✔ 卷四.txt → test
✔ 卷二十.txt → test
✔ 卷十三.txt → test
✔ 卷084.txt → test
✔ 卷三.txt → test
✔ 卷012.txt → test
✔ 卷018.txt → train
✔ 卷024.txt → train
✔ 自序.txt → train
✔ 卷二十一.txt → train
✔ 卷011.txt → train
✔ 卷015.txt → train
✔ 卷006.txt → train
✔ 卷069.txt → train
✔ 卷035.txt → train
✔ 卷009.txt → train
✔ 卷八十四.txt → train
✔ 卷075.txt → train
✔ 卷014.txt → train
✔ 卷020.txt → train
✔ 卷十.txt → train
✔ 卷068.txt → train
✔ 卷070.txt → train
✔ 卷十五.txt → train
✔ 卷026.txt → train
✔ 卷060.txt → train
✔ 卷071.txt → train
✔ 卷029.txt → train
✔ 卷004.txt → train
✔ 卷072.txt → train
✔ 卷021.txt → train
✔ 卷017.txt → train
✔ 卷九.txt → train
✔ 卷十一.txt → train
✔ 卷十二.txt → train
✔ 卷025.txt → train
✔ 卷二十三.txt → train
✔ 卷102.txt → train
✔ 卷008.txt → train
✔ 卷062.txt → train
✔ 卷023.txt → train
✔ 卷086.txt → train
✔ 卷八十六.txt → train
✔ 卷022.txt → train
✔ 卷007.t