In [1]:
from collections import defaultdict
from sklearn.model_selection import train_test_split
import os
import pandas as pd

In [5]:
def create_balanced_csv(folder, folder_csv):
    data_by_language = defaultdict(list)

    for file in os.listdir(folder):
        # print(file)
        lang = file.split("_")[0]
        with open(os.path.join(folder, file), "r", encoding="utf-8") as f:
            text = f.read()
        if text:
            data_by_language[lang].append(text)
    
    filtered_data_by_language = {lang: lines for lang, lines in data_by_language.items() if len(lines) > 2}
    balanced_data = []

    for lang, lines in filtered_data_by_language.items():
        if lines:
            balanced_data.extend((lang, line) for line in lines)

    df_balanced = pd.DataFrame(balanced_data, columns=["Label", "Text"])
    os.makedirs(folder_csv, exist_ok=True)
    df_balanced.to_csv(os.path.join(folder_csv, "data.csv"), index=False, encoding="utf-8")


Je définis une fonction appelée `create_balanced_csv` qui prend deux paramètres : `folder` et `folder_csv`. `folder` est le chemin du dossier contenant les fichiers textuels que je veux analyser, et `folder_csv` est le chemin du dossier où je souhaite enregistrer le fichier CSV final.

Voici comment je m'organise pour traiter les données :

1. **Organisation des données par langue** :
   - Je commence par créer un dictionnaire `data_by_language` en utilisant `defaultdict(list)`. Cela me permet de collecter des listes de textes classées par langue.
   - Je parcours tous les fichiers dans le dossier spécifié avec `os.listdir(folder)`. Pour chaque fichier, je détermine la langue en extrayant la première partie du nom du fichier (avant le premier '_'). Cela suppose que chaque fichier est nommé avec le format "langue_titre.txt".
   - J'ouvre chaque fichier en lecture, en utilisant son chemin complet et l'encodage UTF-8, puis je lis son contenu. Si le contenu n'est pas vide, je l'ajoute à la liste correspondant à sa langue dans `data_by_language`.

2. **Filtrage des langues avec suffisamment de données** :
   - Une fois tous les fichiers lus, je filtre les langues pour ne conserver que celles ayant plus de deux textes. Cela est réalisé avec une compréhension de dictionnaire qui crée `filtered_data_by_language` en vérifiant la longueur des listes pour chaque langue.

3. **Création d'un ensemble de données équilibré** :
   - Pour chaque langue ayant passé le filtre, je crée des paires (langue, texte) pour chaque texte disponible. J'utilise une expression génératrice pour ajouter ces paires à la liste `balanced_data`.

4. **Conversion en DataFrame et enregistrement en CSV** :
   - Je convertis la liste `balanced_data` en un DataFrame Pandas, `df_balanced`, avec des colonnes "Label" pour la langue et "Text" pour le texte.
   - Je m'assure que le dossier de destination `folder_csv` existe (et je le crée s'il n'existe pas) avec `os.makedirs`.
   - Enfin, je sauvegarde le DataFrame dans un fichier CSV nommé "data_balanced.csv" dans le dossier `folder_csv`, en m'assurant que l'index n'est pas inclus dans le fichier CSV et que l'encodage est UTF-8.

Cette fonction `create_balanced_csv` me permet donc de regrouper des textes par langue, de filtrer les langues ayant une quantité minimale de données, et de stocker ces informations de manière structurée dans un fichier CSV, facilitant ainsi les analyses futures.

In [6]:
def create_train_test_csv(csv, folder_csv):
    df_train, df_test = train_test_split(csv, test_size=0.2, random_state=42)
    df_train.to_csv(os.path.join(folder_csv, "data_train.csv"), index=False, encoding="utf-8")
    df_test.to_csv(os.path.join(folder_csv, "data_test.csv"), index=False, encoding="utf-8")


Je définis une fonction appelée `create_train_test_csv` qui prend deux paramètres : `csv` et `folder_csv`. Le premier, `csv`, est un DataFrame qui contient les données, tandis que `folder_csv` est le chemin du dossier où je souhaite enregistrer les fichiers CSV résultants pour les ensembles d'entraînement et de test.

Voici comment je procède pour diviser les données et les enregistrer :

1. **Division des données en ensembles d'entraînement et de test** :
   - J'utilise la fonction `train_test_split` de la bibliothèque scikit-learn pour diviser le DataFrame `csv` en deux sous-ensembles. Je spécifie `test_size=0.2` pour allouer 20% des données au jeu de test, tandis que les 80% restants constitueront le jeu d'entraînement. L'argument `random_state=42` est utilisé pour garantir la reproductibilité du découpage des données.

2. **Enregistrement des ensembles d'entraînement et de test en CSV** :
   - Une fois les données divisées, je sauvegarde l'ensemble d'entraînement dans un fichier CSV nommé "data_train.csv" et l'ensemble de test dans un fichier "data_test.csv". Ces fichiers sont enregistrés dans le dossier spécifié par `folder_csv`.
   - Pour chaque sauvegarde, je spécifie `index=False` pour ne pas inclure l'index du DataFrame dans le fichier CSV et `encoding='utf-8'` pour assurer que le fichier est encodé correctement, ce qui est important pour le traitement ultérieur des données, surtout si elles contiennent des caractères non ASCII.

Cette fonction `create_train_test_csv` permet de préparer efficacement les données pour des phases ultérieures de modélisation en machine learning, en s'assurant que les données sont correctement réparties et enregistrées de manière à faciliter leur accès et leur utilisation.

In [7]:
def main():
    folder_csv = "../../../data/csv/"
    folder_txt_files = "../../../data/clean/"
    create_balanced_csv(folder_txt_files, folder_csv)
    df_balanced = pd.read_csv(os.path.join(folder_csv, "data.csv"), encoding="utf-8")
    create_train_test_csv(df_balanced, folder_csv)

main()