In [1]:
import re
import os
import chardet

In [2]:
def clean_text(text: str) -> str:
    """
    Nettoie le texte en supprimant les numéros de lignes, les chiffres et les retours à la ligne

    Parameters:
    text (str): Le texte à nettoyer

    Returns:
    str: Le texte nettoyé
    """
    text = re.sub(r"\[\d+\]", "", text)
    text = re.sub(r"(?<=\D)\d+[,]?", "", text).strip()
    text = re.sub(r"\n", "", text)
    text = re.sub(r"\s+", " ", text)

    return text

Je définis une fonction nommée `clean_text` qui prend un seul paramètre, `text`, qui est une chaîne de caractères. Mon objectif avec cette fonction est de nettoyer le texte des éléments indésirables et de le normaliser.

Voici comment je procède pour nettoyer le texte :

1. **Suppression des références numériques entre crochets** :
   - J'utilise `re.sub(r"\[\d+\]", "", text)` pour remplacer toute séquence de chiffres entre crochets par rien (les supprimer). Afin de retirer les références et les notes de bas de page dans les textes récupérés depuis les sources comme Wikipedia.

2. **Suppression des chiffres seuls ou suivis de virgules qui ne sont pas précédés par des chiffres** :
   - J'utilise `re.sub(r"(?<=\D)\d+[,]?", "", text).strip()` pour supprimer les nombres qui ne sont pas partie intégrante d'autres nombres ou mots, potentiellement suivis de virgules, sauf s'ils sont précédés d'autres chiffres. Je nettoie également les espaces excédentaires autour du texte avec `strip()`.

3. **Élimination des sauts de ligne** :
   - Je remplace les caractères de nouvelle ligne (`\n`) par rien, effaçant ainsi tous les sauts de ligne dans le texte avec `re.sub(r"\n", "", text)`.

4. **Normalisation des espaces** :
   - Finalement, je remplace une ou plusieurs occurrences d'espaces blancs consécutifs par un seul espace avec `re.sub(r"\s+", " ", text)`. Cela rend le texte plus propre et uniforme en termes d'espacement.

Après avoir appliqué toutes ces transformations, je retourne le texte nettoyé. Cette fonction me permet d'avoir un texte plus uniforme et plus facile à analyser ou à traiter pour des tâches ultérieures.

In [3]:
def clean_data(data_clean: str, data_raw: str) -> None:
    """
    Nettoie les fichiers texte bruts et les enregistre dans le dossier data_clean

    Parameters:
    data_clean (str): Le chemin du dossier où enregistrer les fichiers nettoyés
    data_raw (str): Le chemin du dossier contenant les fichiers bruts

    Returns:
    None
    """
    for raw_file in os.listdir(data_raw):
        with open(data_raw + raw_file, 'rb') as f: 
            raw_data = f.read()
            result = chardet.detect(raw_data)
            encoding = result['encoding']

        with open(data_raw + raw_file, 'r', encoding=encoding) as f:
            text = f.read()
            text = clean_text(text)
            with open(data_clean + raw_file, 'w', encoding='utf-8') as f:
                f.write(text)

Je définis une fonction appelée `clean_data` qui prend deux paramètres : `data_clean` et `data_raw`. Ces paramètres représentent respectivement le chemin vers le dossier où je veux enregistrer les fichiers nettoyés et le chemin vers le dossier contenant les fichiers bruts à nettoyer.

Voici comment je procède pour nettoyer les données :

1. **Parcours des fichiers dans le dossier brut** :
   - J'utilise `os.listdir(data_raw)` pour obtenir une liste de tous les fichiers présents dans le dossier `data_raw`. Ensuite, je parcours cette liste avec une boucle `for`.

2. **Lecture et détection de l'encodage du fichier** :
   - Pour chaque fichier (`raw_file`), je commence par l'ouvrir en mode binaire ('rb') avec `open(data_raw + raw_file, 'rb')`. Cela me permet de lire le fichier sous forme de données binaires brutes.
   - J'utilise ensuite la bibliothèque `chardet` pour détecter l'encodage des données binaires. `chardet.detect(raw_data)` me donne un résultat contenant plusieurs informations, dont l'encodage utilisé dans le fichier, que je stocke dans la variable `encoding`.

3. **Nettoyage du texte** :
   - Après avoir déterminé l'encodage, j'ouvre à nouveau le fichier, cette fois en mode lecture ('r') avec l'encodage détecté, pour lire le texte. Cela garantit que les caractères sont correctement interprétés selon leur encodage.
   - Je lis tout le contenu du fichier dans la variable `text` et je passe ce texte à la fonction `clean_text`, que j'ai définie précédemment pour nettoyer le texte selon divers critères (suppression de caractères indésirables, normalisation des espaces, etc.).

4. **Écriture du texte nettoyé dans le dossier de destination** :
   - Ensuite, j'ouvre un nouveau fichier dans le dossier `data_clean`, en utilisant le même nom de fichier que celui lu. Je l'ouvre en mode écriture ('w') avec l'encodage UTF-8 pour assurer une bonne compatibilité du fichier.
   - Je écris le texte nettoyé dans ce nouveau fichier. Cela me permet de conserver une version nettoyée de chaque fichier brut, prête à être utilisée pour d'autres traitements ou analyses.

Cette fonction `clean_data` me permet donc de transformer une collection de fichiers textuels bruts en une version nettoyée, en gérant correctement les encodages et en appliquant des nettoyages de texte standardisés à chaque fichier.

In [4]:
data_raw = "../../../data/raw/"
data_clean = "../../../data/clean/"

clean_data(data_clean, data_raw)