## Préparation des données pour le modèle SOMME_RNN_TEST

Nous allons ici préparer des données pour un modèle assez particulier, qui ne sera pas lié à des considérations chimiques mais qui aura pour unique objectif de vérifier que notre implémentation des RNN est correcte et peut mener à des résultats.

Pour cela, nous allons préparer un jeu d'entrée de format similaire à celui que nous utilisons pour DIST_REL_C_RNN_01, mais qui sera composé de nombres entiers. L'objectif du RNN que nous allons entraîner sur ces données sera de prédire la somme des nombres en entrée.

#### Chemin des fichiers

In [12]:
train_prepared_input_loc = "../data/SOMME_RNN_TEST/train_prepared_input.h5"
train_labels_loc = "../data/SOMME_RNN_TEST/train_labels.h5"

test_prepared_input_loc = "../data/SOMME_RNN_TEST/test_prepared_input.h5"
test_labels_loc = "../data/SOMME_RNN_TEST/test_labels.h5"

minimal_prepared_input_loc = "../data/SOMME_RNN_TEST/minimal_prepared_input.h5"
minimal_labels_loc = "../data/SOMME_RNN_TEST/minimal_labels.h5"

#### Fonction de préparation des données

In [11]:
from random import randint
import numpy as np
import h5py

def preparation_donnees(prepared_input_loc, labels_loc, taille):
    
    input_rn = []
    labels_rn = []
    
    for i in range(taille):
        
        # On génère une série de taille (n*15), n étant un nombre entre 10 et 58
        curr_serie = np.random.randint(10, size=randint(10, 58)*15)
        
        # On enregistre la série et sa somme
        input_rn.append(curr_serie)
        labels_rn.append(np.sum(curr_serie))
    
    # On créé les jeux de données d'entrée du RN et de labels
    input_rn_dataset_h5 = h5py.File(prepared_input_loc, 'w')
    labels_dataset_h5 = h5py.File(labels_loc, 'w')  
    
    try:
            
        # On enregistre les données dans les fichiers h5
        varlen_floatarray = h5py.special_dtype(vlen=np.dtype("float32"))

        input_dataset = input_rn_dataset_h5.create_dataset("inputs", maxshape=(None,), shape=(taille,),
                                           dtype=varlen_floatarray, compression="gzip", 
                                           chunks=True, data=np.array(input_rn))

        target_dataset = labels_dataset_h5.create_dataset("targets", maxshape=(None,), shape=(taille,),
                                           dtype=np.float32, compression="gzip", 
                                           chunks=True, data=np.array(labels_rn))
    finally:
        input_rn_dataset_h5.close()
        labels_dataset_h5.close()

    


#### On créé 3.000.000 exemples pour le jeu d'entraînement

In [None]:
preparation_donnees(train_prepared_input_loc, train_labels_loc, 3000000)

#### On créé 500.000 exemples pour le jeu de test

In [None]:
preparation_donnees(test_prepared_input_loc, test_labels_loc, 500000)

#### On créé 10000 exemples pour le jeu minimal

In [13]:
preparation_donnees(minimal_prepared_input_loc, minimal_labels_loc, 10000)