# --> Importations

In [49]:
import tensorflow as tf
import numpy as np

# --> Importation dataset poeme de Victor Hugo

In [50]:
with open("../../Datasets/VictorHugoPoems/victorhugo.txt", "r", encoding='utf-8') as f:
    text = f.read()
    
print("Taille du text : ", len(text))
print("Texte avant preprocessing :\n", text[:100])

Taille du text :  127286
Texte avant preprocessing :
 Parce que, jargonnant vêpres, jeûne et vigile,
Exploitant Dieu qui rêve au fond du firmament,
Vous a


# --> Preprocessing du dataset

In [51]:
#Supprime les caracteres inutiles, les majuscules...
import unidecode
text = unidecode.unidecode(text)
text.lower()
text = text.replace("2", "")
text = text.replace("1", "")
text = text.replace("8", "")
text = text.replace("5", "")
text = text.replace(">", "")
text = text.replace("<", "")
text = text.replace("!", "")
text = text.replace("?", "")
text = text.replace("-", "")
text = text.replace("$", "")
text = text.replace(";", "")
text = text.strip()

#Supprime tous les doublons
vocab = set(text) 

#Affichage resultat
print("Taille du vocabulaire : ", len(vocab))
print("Vocabulaire :\n", vocab)
print("Texte formate :\n", text[:100])

Taille du vocabulaire :  57
Vocabulaire :
 {'q', 'o', 'u', 't', 'T', 'c', 'f', 'k', 'I', 'H', 'y', 'E', 'r', 'S', 'C', 'J', 'j', 'K', 'N', 'O', 'Q', 'F', 'l', 'a', 's', 'i', "'", ',', 'P', 'M', 'Y', 'p', 'G', '"', 'U', 'h', 'v', 'g', 'b', 'B', 'D', 'd', '\n', 'e', 'V', ':', 'R', 'L', 'm', 'A', 'X', '.', 'z', 'w', 'x', ' ', 'n'}
Texte formate :
 Parce que, jargonnant vepres, jeune et vigile,
Exploitant Dieu qui reve au fond du firmament,
Vous a


In [52]:
#On traduit maintenant tout le vocabulaire en nombre
vocab_size = len(vocab)
#Dictionnaire traduction
vocab_to_int = {l:i for i,l in enumerate(vocab)} 
int_to_vocab = {i:l for i,l in enumerate(vocab)}
#Affichage
print("Vocab to int :\n", vocab_to_int)
print("Int to vocab :\n", int_to_vocab)

Vocab to int :
 {'q': 0, 'o': 1, 'u': 2, 't': 3, 'T': 4, 'c': 5, 'f': 6, 'k': 7, 'I': 8, 'H': 9, 'y': 10, 'E': 11, 'r': 12, 'S': 13, 'C': 14, 'J': 15, 'j': 16, 'K': 17, 'N': 18, 'O': 19, 'Q': 20, 'F': 21, 'l': 22, 'a': 23, 's': 24, 'i': 25, "'": 26, ',': 27, 'P': 28, 'M': 29, 'Y': 30, 'p': 31, 'G': 32, '"': 33, 'U': 34, 'h': 35, 'v': 36, 'g': 37, 'b': 38, 'B': 39, 'D': 40, 'd': 41, '\n': 42, 'e': 43, 'V': 44, ':': 45, 'R': 46, 'L': 47, 'm': 48, 'A': 49, 'X': 50, '.': 51, 'z': 52, 'w': 53, 'x': 54, ' ': 55, 'n': 56}
Int to vocab :
 {0: 'q', 1: 'o', 2: 'u', 3: 't', 4: 'T', 5: 'c', 6: 'f', 7: 'k', 8: 'I', 9: 'H', 10: 'y', 11: 'E', 12: 'r', 13: 'S', 14: 'C', 15: 'J', 16: 'j', 17: 'K', 18: 'N', 19: 'O', 20: 'Q', 21: 'F', 22: 'l', 23: 'a', 24: 's', 25: 'i', 26: "'", 27: ',', 28: 'P', 29: 'M', 30: 'Y', 31: 'p', 32: 'G', 33: '"', 34: 'U', 35: 'h', 36: 'v', 37: 'g', 38: 'b', 39: 'B', 40: 'D', 41: 'd', 42: '\n', 43: 'e', 44: 'V', 45: ':', 46: 'R', 47: 'L', 48: 'm', 49: 'A', 50: 'X', 51: '.', 52:

In [53]:
#Le dictionnaire nous permet de traduire notre text en nombre
encoded = [vocab_to_int[l] for l in text]
encoded_sentence = encoded[:100]
print(encoded_sentence)

[28, 23, 12, 5, 43, 55, 0, 2, 43, 27, 55, 16, 23, 12, 37, 1, 56, 56, 23, 56, 3, 55, 36, 43, 31, 12, 43, 24, 27, 55, 16, 43, 2, 56, 43, 55, 43, 3, 55, 36, 25, 37, 25, 22, 43, 27, 42, 11, 54, 31, 22, 1, 25, 3, 23, 56, 3, 55, 40, 25, 43, 2, 55, 0, 2, 25, 55, 12, 43, 36, 43, 55, 23, 2, 55, 6, 1, 56, 41, 55, 41, 2, 55, 6, 25, 12, 48, 23, 48, 43, 56, 3, 27, 42, 44, 1, 2, 24, 55, 23]


In [54]:
decoded_sentence = [int_to_vocab[i] for i in encoded_sentence]
print(decoded_sentence)

['P', 'a', 'r', 'c', 'e', ' ', 'q', 'u', 'e', ',', ' ', 'j', 'a', 'r', 'g', 'o', 'n', 'n', 'a', 'n', 't', ' ', 'v', 'e', 'p', 'r', 'e', 's', ',', ' ', 'j', 'e', 'u', 'n', 'e', ' ', 'e', 't', ' ', 'v', 'i', 'g', 'i', 'l', 'e', ',', '\n', 'E', 'x', 'p', 'l', 'o', 'i', 't', 'a', 'n', 't', ' ', 'D', 'i', 'e', 'u', ' ', 'q', 'u', 'i', ' ', 'r', 'e', 'v', 'e', ' ', 'a', 'u', ' ', 'f', 'o', 'n', 'd', ' ', 'd', 'u', ' ', 'f', 'i', 'r', 'm', 'a', 'm', 'e', 'n', 't', ',', '\n', 'V', 'o', 'u', 's', ' ', 'a']


In [55]:
decoded_sentence = "".join(decoded_sentence)
print(decoded_sentence)

Parce que, jargonnant vepres, jeune et vigile,
Exploitant Dieu qui reve au fond du firmament,
Vous a


# --> Creation des batchs

In [56]:
#Un batch = plusieurs sequences de mots
#Ce qu'on peut faire lorsqu'on a un dataset comme cela, on peut prendre une sequence de quelques mots
#Chaque lettre est une entree dont le target est la lettre suivante. 
#Une incoherence peut arriver lors de l'analyse de la premiere lettre d'une sequence
#Car dans notre cellule RNN il n'a pas d'informations sur la lettre precedente car la memoire est nulle.
#Au lieu de lui mettre un etat nulle on lui mets l'etat retenu du batch precendent.
#On ne peut donc pas se permettre de selectionner des sequences aleatoires dans notre texte.
#On va donc seprarer notre texte en chunks
#Une epoch : un ensemble de batch
def gen_batch(inputs, targets, seq_len, batch_size, noise=0):
    
    chunk_size = (len(inputs) -1) // batch_size
    sequences_per_chunk = chunk_size // seq_len
    
    for seq in range(0, sequences_per_chunk):
        batch_inputs = np.zeros((batch_size, seq_len))
        batch_targets = np.zeros((batch_size, seq_len))
        for b in range(0, batch_size):
            fr = (b*chunk_size) + (seq*seq_len)
            to = fr + seq_len
            batch_inputs[b] = inputs[fr:to]
            batch_targets[b] = inputs[fr+1:to+1]

            if noise > 0: #"noise" aide le model a generaliser, evite l'overfitting
                noise_indices = np.random.choice(seq_len, noise)
                batch_inputs[b][noise_indices] = np.random.randint(0, vocab_size)

        yield batch_inputs, batch_targets #Permet d'appeler la fonction dans la boucle
            
inputs, targets = encoded, encoded[1:]
print("First inputs : ", inputs[:10])
print("First targets : ", targets[:10])

First inputs :  [28, 23, 12, 5, 43, 55, 0, 2, 43, 27]
First targets :  [23, 12, 5, 43, 55, 0, 2, 43, 27, 55]


In [57]:
print("\n##################### Sans noise #####################")
i = 0
for batch_inputs, batch_targets in gen_batch(inputs, targets, 5, 32, noise=0): #Sequence de 5, batch de 32
    i += 1
    print("\n----------------------Step ", i, "----------------------")
    print("\nBatch input :\n", batch_inputs.shape, "\nBatch target shape :\n", batch_targets.shape)
    print("\nBatch input :\n", batch_inputs[0], "\nBatch target :\n", batch_targets[0])
    if i > 1:
        break


##################### Sans noise #####################

----------------------Step  1 ----------------------

Batch input :
 (32, 5) 
Batch target shape :
 (32, 5)

Batch input :
 [28. 23. 12.  5. 43.] 
Batch target :
 [23. 12.  5. 43. 55.]

----------------------Step  2 ----------------------

Batch input :
 (32, 5) 
Batch target shape :
 (32, 5)

Batch input :
 [55.  0.  2. 43. 27.] 
Batch target :
 [ 0.  2. 43. 27. 55.]


In [58]:
print("\n##################### Avec noise = 3 #####################")
i = 0
for batch_inputs, batch_targets in gen_batch(inputs, targets, 5, 32, noise=3): #Sequence de 5, batch de 32
    i += 1
    print("\n---------------------- Step ", i, " ----------------------")
    print("\nBatch input :\n", batch_inputs.shape, "\nBatch target shape :\n", batch_targets.shape)
    print("\nBatch input :\n", batch_inputs[0], "\nBatch target :\n", batch_targets[0])
    if i > 1:
        break


##################### Avec noise = 3 #####################

---------------------- Step  1  ----------------------

Batch input :
 (32, 5) 
Batch target shape :
 (32, 5)

Batch input :
 [28. 33. 12. 33. 33.] 
Batch target :
 [23. 12.  5. 43. 55.]

---------------------- Step  2  ----------------------

Batch input :
 (32, 5) 
Batch target shape :
 (32, 5)

Batch input :
 [55. 11.  2. 11. 11.] 
Batch target :
 [ 0.  2. 43. 27. 55.]


# --> One hot encoding

In [61]:
#Les valeurs au dessus ne nous convienne pas pour entrainer un model il y a mieux.
#On va donc utiliser le one hot encoding pour simplifier la tache à notre model.
#Exemple de one hot encoding : a => 2 => [0, 1, 0, 0]
#Le one hot encoding est tres efficace lorsqu'on veut specifier des classes.
#En effet, il n'y a aucune raison qu'un nombres que nous donnons a un caractere
#ait un nombre plus eleve et donc avec plus de poids qu'un autre alors qu'il n'y
#a aucune hierarchie entre les caracteres.
class OneHot(tf.keras.layers.Layer): #On creer une custom layer OneHot
    
    def __init__(self, depth, **kwargs):
        super(OneHot, self).__init__(**kwargs)
        self.depth = depth
        
    def call(self, x, mask=None):
         #Transforme le x en int 32 et creer un vecteur one hot encoded
        return tf.one_hot(tf.cast(x, tf.int32), self.depth)

In [64]:
class RNNModel(tf.keras.Model):
    
    def __init__(self, vocab_size):
        super(RNNModel, self).__init__()
        self.one_hot = OneHot(len(vocab))
        
    def call(self, inputs):
        output_layer = self.one_hot(inputs)
        return output_layer
    
batch_inputs, batch_targets = next(gen_batch(inputs, targets, 50, 32)) #32 sequences, 50 elements
model = RNNModel(len(vocab))
output = model.predict(batch_inputs)[0][0]

print("Input letter :\n", batch_inputs[0][0])
print("Next letter prediction :\n", output)

Input letter :
 28.0
Next letter prediction :
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0.]
