## Script de Prétraitement des Données

Ce script permet de diviser un fichier CSV contenant des données en trois ensembles :
- Entraînement (train)
- Validation (val)
- Test (test)

Les ensembles sont créés en respectant la distribution des classes grâce à la méthode `StratifiedShuffleSplit` de `sklearn`.

### Étapes principales :
1. Vérification de l'existence du fichier d'entrée.
2. Lecture des données à partir d'un fichier CSV.
3. Arrondi des valeurs de la colonne `PCE`.
4. Division des données en ensembles d'entraînement, de validation et de test.
5. Sauvegarde des ensembles dans des fichiers CSV et TXT.

In [None]:
import pandas as pd
from sklearn.model_selection import StratifiedShuffleSplit
import numpy as np
import os
 
# Fonction principale pour générer les ensembles de données
def generate_dataset(datapath, trainout, valout, testout):
    
    # Vérifier que le fichier d'entrée existe
    if not os.path.exists(datapath):
        raise FileNotFoundError(f"Le fichier {datapath} n'existe pas.")
   
    # Lire le fichier CSV
    print(f"Lecture du fichier : {datapath}")
    data = pd.read_csv(datapath)  # Chargement des données
    print("Fichier lu avec succès.")
    print(f"Nombre de lignes : {len(data)}")
   
    # Arrondir les valeurs de PCE pour simplifier la stratification
    data["PCE"] = np.floor(data["PCE"])
   
    # Définir les caractéristiques (X) et la cible (y)
    X = data['SMILES']  # Caractéristiques : colonnes SMILES
    y = data['PCE']     # Cible : colonne PCE
   
    # Créer les répertoires de sortie si ils n'existent pas
    os.makedirs(os.path.dirname(trainout), exist_ok=True)
    os.makedirs(os.path.dirname(valout), exist_ok=True)
    os.makedirs(os.path.dirname(testout), exist_ok=True)
   
    # Diviser les données en ensembles d'entraînement et de test
    ss = StratifiedShuffleSplit(n_splits=1, test_size=0.15, random_state=42)
    
    for train_index, test_index in ss.split(X, y):
        X_train, X_test = X.iloc[train_index], X.iloc[test_index]
        y_train, y_test = y.iloc[train_index], y.iloc[test_index]
       
        # Sauvegarder l'ensemble de test
        test = data.iloc[test_index]
        try:
            print(f"Sauvegarde du fichier test dans : {testout}.csv")
            test.to_csv(testout + '.csv', index=False)  # Sauvegarde au format CSV
            test.to_csv(testout + '.txt', index=False)  # Sauvegarde au format TXT
            print("Fichier test sauvegardé avec succès.")
        except Exception as e:
            print(f"Erreur lors de la sauvegarde du fichier test : {e}")
       
    # Diviser l'ensemble d'entraînement en entraînement et validation
    ss_val = StratifiedShuffleSplit(n_splits=1, test_size=0.1, random_state=21)
    for train_idx, val_idx in ss_val.split(X_train, y_train):
        
        # Sauvegarder l'ensemble d'entraînement
        train = data.iloc[train_index].iloc[train_idx]
        try:
            print(f"Sauvegarde du fichier train dans : {trainout}.csv")
            train.to_csv(trainout + '.csv', index=False)  # Sauvegarde au format CSV
            train.to_csv(trainout + '.txt', index=False)  # Sauvegarde au format TXT
            print("Fichier train sauvegardé avec succès.")
        except Exception as e:
            print(f"Erreur lors de la sauvegarde du fichier train : {e}")
        
        # Sauvegarder l'ensemble de validation
        val = data.iloc[train_index].iloc[val_idx]
        try:
            print(f"Sauvegarde du fichier val dans : {valout}.csv")
            val.to_csv(valout + '.csv', index=False)  # Sauvegarde au format CSV
            val.to_csv(valout + '.txt', index=False)  # Sauvegarde au format TXT
            print("Fichier val sauvegardé avec succès.")
        except Exception as e:
            print(f"Erreur lors de la sauvegarde du fichier val : {e}")
            
   
    return print('Les datasets ont été générés avec succès !')
 
# Exemple d'utilisation
datapath = r"../datasets/PM/PM.csv"  # Chemin du fichier d'entrée
trainout = r"../datasets/PM/train/train_file"  # Chemin de sortie pour train
valout = r"../datasets/PM/val/val_file"        # Chemin de sortie pour val
testout = r"../datasets/PM/test/test_file"    # Chemin de sortie pour test
 
generate_dataset(datapath, trainout, valout, testout)  # Appel de la fonction

Lecture du fichier : ../datasets/SM/SM.csv
Fichier lu avec succès.
Nombre de lignes : 979
Sauvegarde du fichier test dans : ../datasets/SM/test/test_file.csv
Fichier test sauvegardé avec succès.
Sauvegarde du fichier train dans : ../datasets/SM/train/train_file.csv
Fichier train sauvegardé avec succès.
Sauvegarde du fichier val dans : ../datasets/SM/val/val_file.csv
Fichier val sauvegardé avec succès.
Les datasets ont été générés avec succès !
