### Traitement du corpus
- Filtrer les textes qui contiennent une ponctuation (parce que certains textes n'ont pas de ponctuation)
- supprimer les textes répétés



In [1]:
import os
import re
import hashlib
import shutil

# Définir le chemin du répertoire de texte
text_dir = "Corpus/十國春秋"
output_dir = "Corpus/十國春秋(avec ponctuation)"  # Répertoire de sortie (modifiable)

# Créer le répertoire de sortie s'il n'existe pas
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# Expression régulière pour la ponctuation chinoise
punctuation_pattern = re.compile(r"[。！？]")

punctuated_files = []
unpunctuated_files = []
seen_hashes = set()

# Parcourir les fichiers dans le répertoire
for file in os.listdir(text_dir):
    if file.endswith(".txt"):
        file_path = os.path.join(text_dir, file)
        try:
            with open(file_path, 'r', encoding='utf-8') as f:
                content = f.read().strip()
                content_hash = hashlib.md5(content.encode('utf-8')).hexdigest()
                if content_hash in seen_hashes:
                    continue
                seen_hashes.add(content_hash)

                if punctuation_pattern.search(content):
                    punctuated_files.append(file_path)
                    # Copier le fichier dans le répertoire de sortie
                    shutil.copy(file_path, os.path.join(output_dir, file))
                else:
                    unpunctuated_files.append(file_path)
        except Exception as e:
            print(f"Échec de la lecture : {file} → {e}")

print(f"Nombre de fichiers avec ponctuation (après déduplication) : {len(punctuated_files)}")
print(f"Nombre de fichiers sans ponctuation (après déduplication) : {len(unpunctuated_files)}")
print(f"Tous les fichiers avec ponctuation ont été enregistrés dans le répertoire : {output_dir}")


Nombre de fichiers avec ponctuation (après déduplication) : 64
Nombre de fichiers sans ponctuation (après déduplication) : 13
Tous les fichiers avec ponctuation ont été enregistrés dans le répertoire : Corpus/十國春秋(avec ponctuation)


### Nettoyage des textes sélectionnés
supprimer les hyperliens, lignes non pertinentes, annotations décoratives, chiffres, caractères spéciaux, espaces et sauts de ligne inappropriés, afin d'améliorer la clarté et la cohérence du contenu.

In [None]:
import os
import re

import re

def clean_text(text):
    # Supprimer les hyperliens
    text = re.sub(r"http[s]?://\S+", "", text)

    # Supprimer les lignes non pertinentes spécifiques
    text = re.sub(r"^.*(←|→|目次|姊妹計劃|作者).*?$", "", text, flags=re.M)

    # Supprimer les annotations ou les marques décoratives
    text = re.sub(r"\[.*?\]", "", text)
    text = re.sub(r"【.*?】", "", text)

    # Supprimer les chiffres
    text = re.sub(r"\d+", "", text)

    # Supprimer les caractères de contrôle spéciaux
    text = re.sub(r"[\u2000-\u206F\uFEFF\uFFF0-\uFFFF]", "", text)
    text = re.sub(r"[𦞦𤴓䤬䍧𢂽□*]", "", text)

    # Supprimer les sauts de ligne entre deux caractères non blancs
    text = re.sub(r"(?<=[\S])\n(?=[\S])", "", text)

    # Supprimer les espaces demi-chasse et pleine chasse
    text = text.replace(" ", "").replace("　", "")

    return text.strip()



# Définir les chemins d’entrée et de sortie
input_dir = "Corpus/十國春秋(avec ponctuation)"
output_dir = "Corpus/十國春秋_cleaned"  # Répertoire des textes nettoyés

# Créer le répertoire de sortie s’il n’existe pas
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# Parcourir et nettoyer chaque fichier texte
for file_name in os.listdir(input_dir):
    if file_name.endswith(".txt"):
        input_path = os.path.join(input_dir, file_name)
        output_path = os.path.join(output_dir, file_name)

        try:
            with open(input_path, 'r', encoding='utf-8') as f:
                raw_text = f.read()
                cleaned_text = clean_text(raw_text)

            with open(output_path, 'w', encoding='utf-8') as f_out:
                f_out.write(cleaned_text)

            print(f"Nettoyé : {file_name}")
        except Exception as e:
            print(f"Échec du traitement : {file_name} → {e}")

print(f"Tous les fichiers ont été nettoyés et enregistrés dans : {output_dir}")


Nettoyé : 卷二十一.txt
Nettoyé : 卷三十七.txt
Nettoyé : 卷068.txt
Nettoyé : 卷七.txt
Nettoyé : 卷069.txt
Nettoyé : 卷十二.txt
Nettoyé : 卷094.txt
Nettoyé : 卷一.txt
Nettoyé : 卷十八.txt
Nettoyé : 卷二十.txt
Nettoyé : 卷084.txt
Nettoyé : 卷086.txt
Nettoyé : 卷十六.txt
Nettoyé : 卷十七.txt
Nettoyé : 卷023.txt
Nettoyé : 卷二.txt
Nettoyé : 卷022.txt
Nettoyé : 卷036.txt
Nettoyé : 凡例.txt
Nettoyé : 卷二十八.txt
Nettoyé : 卷十一.txt
Nettoyé : 卷008.txt
Nettoyé : 卷009.txt
Nettoyé : 卷035.txt
Nettoyé : 卷019.txt
Nettoyé : 卷025.txt
Nettoyé : 卷030.txt
Nettoyé : 卷024.txt
Nettoyé : 卷026.txt
Nettoyé : 卷六.txt
Nettoyé : 卷027.txt
Nettoyé : 卷003.txt
Nettoyé : 卷十三.txt
Nettoyé : 卷十四.txt
Nettoyé : 卷015.txt
Nettoyé : 卷029.txt
Nettoyé : 跋.txt
Nettoyé : 卷004.txt
Nettoyé : 卷010.txt
Nettoyé : 提要.txt
Nettoyé : 卷五.txt
Nettoyé : 自序.txt
Nettoyé : 卷075.txt
Nettoyé : 卷061.txt
Nettoyé : 卷101.txt
Nettoyé : 卷100.txt
Nettoyé : 卷060.txt
Nettoyé : 卷074.txt
Nettoyé : 卷062.txt
Nettoyé : 卷076.txt
Nettoyé : 卷102.txt
Nettoyé : 卷103.txt
Nettoyé : 卷077.txt
Nettoyé : 卷067.txt
N