## Nettoyage des résultats

### Import des bibliothèques nécessaires

In [21]:
import os
import re

In [22]:
def clean_text(text):
    # Normaliser les espaces
    text = re.sub(r"\s+", " ", text)
    # Supprimer les numéros de page
    text = re.sub(r"Page \d+", "", text)
    # Supprimer les sauts de ligne
    text = re.sub(r"\n", "", text)
    # Supprimer les espaces inutiles au début et à la fin du texte
    return text.strip()

Cette fonction prend un texte brut en entrée.

Elle utilise des expressions régulières pour effectuer plusieurs opérations de nettoyage :

Je remplace une ou plusieurs occurrences d'espaces blancs consécutifs par un seul espace.

Je supprime les chaînes de caractères de la forme "Page X" où X est un nombre.

Je remplace les caractères de nouvelle ligne (\n) par rien, effaçant ainsi tous les sauts de ligne dans le texte.

Je supprime les espaces au début et à la fin du texte pour assurer une propreté totale

Enfin, elle renvoie le texte nettoyé.

In [23]:
def clean_files(input_folder, output_folder):
    # Créer le dossier de sortie "fichiers_clean" s'il n'existe pas déjà
    os.makedirs(os.path.join(output_folder, "fichiers_clean"), exist_ok=True)

    for root, _, files in os.walk(input_folder):
        for file in files:
            if file.endswith(".txt"):
                input_file_path = os.path.join(root, file)
                output_file_path = os.path.join(output_folder, "fichiers_clean", file)

                with open(input_file_path, "r", encoding="utf-8") as f:
                    text = f.read()

                # Nettoyer le contenu du fichier
                clean_content = clean_text(text)

                with open(output_file_path, "w", encoding="utf-8") as f:
                    f.write(clean_content)
    
    # Afficher un message indiquant que tous les fichiers ont été nettoyés et enregistrés
    print("Tous les fichiers ont été nettoyés et enregistrés dans le répertoire : '{}'.".format(os.path.join(output_folder, "fichiers_clean")))
    

Fonction `clean_files` :

Cette fonction prend deux arguments : le chemin du dossier d'entrée contenant les fichiers bruts et le chemin du dossier de sortie où enregistrer les fichiers nettoyés.

Elle commence par créer le dossier de sortie "results" s'il n'existe pas déjà.

Ensuite, elle parcourt tous les fichiers dans le dossier d'entrée.

Pour chaque fichier .txt trouvé, elle lit son contenu, nettoie le texte en utilisant la fonction clean_text, puis écrit le texte nettoyé dans un nouveau fichier dans le dossier de sortie.

Elle affiche un message confirmant que tous les fichiers ont été nettoyés et enregistrés avec succès dans le dossier de sortie.

In [24]:
# Dossiers d'entrée et de sortie
input_folder = "../raw/results/"
output_folder = "./results"

In [25]:
# Appel de la fonction pour nettoyer les fichiers
clean_files(input_folder, output_folder)            

Tous les fichiers ont été nettoyés et enregistrés dans le répertoire : './results/fichiers_clean'.


Appel de la fonction `clean_files` :

Finalement, les chemins des dossiers d'entrée et de sortie sont spécifiés, et la fonction clean_files est appelée avec ces arguments pour effectuer le nettoyage des fichiers.