# --> Importations

In [1]:
import tensorflow as tf
import numpy as np
from sklearn.model_selection import train_test_split

# --> Importation dataset poeme de Victor Hugo

In [2]:
with open("../../Datasets/VictorHugoPoems/victorhugo.txt", "r", encoding='utf-8') as f:
    text = f.read()
    
print("Taille du text : ", len(text))
print("Texte avant preprocessing :\n", text[:100])

Taille du text :  127286
Texte avant preprocessing :
 Parce que, jargonnant vêpres, jeûne et vigile,
Exploitant Dieu qui rêve au fond du firmament,
Vous a


# --> Preprocessing du dataset

In [3]:
#Supprime les caracteres inutiles, les majuscules...
import unidecode
text = unidecode.unidecode(text)
text.lower()
text = text.replace("2", "")
text = text.replace("1", "")
text = text.replace("8", "")
text = text.replace("5", "")
text = text.replace(">", "")
text = text.replace("<", "")
text = text.replace("!", "")
text = text.replace("?", "")
text = text.replace("-", "")
text = text.replace("$", "")
text = text.replace(";", "")
text = text.strip()

#Supprime tous les doublons
vocab = set(text) 

#Affichage resultat
print("Taille du vocabulaire : ", len(vocab))
print("Vocabulaire :\n", vocab)
print("Texte formate :\n", text[:100])

Taille du vocabulaire :  57
Vocabulaire :
 {'H', 'f', ' ', 'n', 'm', 'e', 'h', '.', 'o', 'E', 'p', 'R', 'k', 'A', 'N', 'J', 'w', 'a', 'U', 'Y', 'B', 's', 'S', 'V', 'r', 'b', 'c', 'X', 't', 'K', 'G', 'P', 'i', 'v', '"', 'q', 'g', 'F', 'L', 'x', 'I', 'C', 'O', "'", 'l', 'Q', 'd', 'z', 'y', 'u', 'M', '\n', ':', ',', 'T', 'D', 'j'}
Texte formate :
 Parce que, jargonnant vepres, jeune et vigile,
Exploitant Dieu qui reve au fond du firmament,
Vous a


In [4]:
#On traduit maintenant tout le vocabulaire en nombre
vocab_size = len(vocab)
#Dictionnaire traduction
vocab_to_int = {l:i for i,l in enumerate(vocab)} 
int_to_vocab = {i:l for i,l in enumerate(vocab)}
#Affichage
print("Vocab to int :\n", vocab_to_int)
print("Int to vocab :\n", int_to_vocab)

Vocab to int :
 {'H': 0, 'f': 1, ' ': 2, 'n': 3, 'm': 4, 'e': 5, 'h': 6, '.': 7, 'o': 8, 'E': 9, 'p': 10, 'R': 11, 'k': 12, 'A': 13, 'N': 14, 'J': 15, 'w': 16, 'a': 17, 'U': 18, 'Y': 19, 'B': 20, 's': 21, 'S': 22, 'V': 23, 'r': 24, 'b': 25, 'c': 26, 'X': 27, 't': 28, 'K': 29, 'G': 30, 'P': 31, 'i': 32, 'v': 33, '"': 34, 'q': 35, 'g': 36, 'F': 37, 'L': 38, 'x': 39, 'I': 40, 'C': 41, 'O': 42, "'": 43, 'l': 44, 'Q': 45, 'd': 46, 'z': 47, 'y': 48, 'u': 49, 'M': 50, '\n': 51, ':': 52, ',': 53, 'T': 54, 'D': 55, 'j': 56}
Int to vocab :
 {0: 'H', 1: 'f', 2: ' ', 3: 'n', 4: 'm', 5: 'e', 6: 'h', 7: '.', 8: 'o', 9: 'E', 10: 'p', 11: 'R', 12: 'k', 13: 'A', 14: 'N', 15: 'J', 16: 'w', 17: 'a', 18: 'U', 19: 'Y', 20: 'B', 21: 's', 22: 'S', 23: 'V', 24: 'r', 25: 'b', 26: 'c', 27: 'X', 28: 't', 29: 'K', 30: 'G', 31: 'P', 32: 'i', 33: 'v', 34: '"', 35: 'q', 36: 'g', 37: 'F', 38: 'L', 39: 'x', 40: 'I', 41: 'C', 42: 'O', 43: "'", 44: 'l', 45: 'Q', 46: 'd', 47: 'z', 48: 'y', 49: 'u', 50: 'M', 51: '\n', 52:

In [5]:
#Le dictionnaire nous permet de traduire notre text en nombre
encoded = [vocab_to_int[l] for l in text]
encoded_sentence = encoded[:100]
print(encoded_sentence)

[31, 17, 24, 26, 5, 2, 35, 49, 5, 53, 2, 56, 17, 24, 36, 8, 3, 3, 17, 3, 28, 2, 33, 5, 10, 24, 5, 21, 53, 2, 56, 5, 49, 3, 5, 2, 5, 28, 2, 33, 32, 36, 32, 44, 5, 53, 51, 9, 39, 10, 44, 8, 32, 28, 17, 3, 28, 2, 55, 32, 5, 49, 2, 35, 49, 32, 2, 24, 5, 33, 5, 2, 17, 49, 2, 1, 8, 3, 46, 2, 46, 49, 2, 1, 32, 24, 4, 17, 4, 5, 3, 28, 53, 51, 23, 8, 49, 21, 2, 17]


In [6]:
decoded_sentence = [int_to_vocab[i] for i in encoded_sentence]
print(decoded_sentence)

['P', 'a', 'r', 'c', 'e', ' ', 'q', 'u', 'e', ',', ' ', 'j', 'a', 'r', 'g', 'o', 'n', 'n', 'a', 'n', 't', ' ', 'v', 'e', 'p', 'r', 'e', 's', ',', ' ', 'j', 'e', 'u', 'n', 'e', ' ', 'e', 't', ' ', 'v', 'i', 'g', 'i', 'l', 'e', ',', '\n', 'E', 'x', 'p', 'l', 'o', 'i', 't', 'a', 'n', 't', ' ', 'D', 'i', 'e', 'u', ' ', 'q', 'u', 'i', ' ', 'r', 'e', 'v', 'e', ' ', 'a', 'u', ' ', 'f', 'o', 'n', 'd', ' ', 'd', 'u', ' ', 'f', 'i', 'r', 'm', 'a', 'm', 'e', 'n', 't', ',', '\n', 'V', 'o', 'u', 's', ' ', 'a']


In [7]:
decoded_sentence = "".join(decoded_sentence)
print(decoded_sentence)

Parce que, jargonnant vepres, jeune et vigile,
Exploitant Dieu qui reve au fond du firmament,
Vous a


# --> Creation des batchs

In [8]:
#Un batch = plusieurs sequences de mots
#Ce qu'on peut faire lorsqu'on a un dataset comme cela, on peut prendre une sequence de quelques mots
#Chaque lettre est une entree dont le target est la lettre suivante. 
#Une incoherence peut arriver lors de l'analyse de la premiere lettre d'une sequence
#Car dans notre cellule RNN il n'a pas d'informations sur la lettre precedente car la memoire est nulle.
#Au lieu de lui mettre un etat nulle on lui mets l'etat retenu du batch precendent.
#On ne peut donc pas se permettre de selectionner des sequences aleatoires dans notre texte.
#On va donc seprarer notre texte en chunks
#Une epoch : un ensemble de batch
def gen_batch(inputs, targets, seq_len, batch_size, noise=0):
    
    chunk_size = (len(inputs) -1) // batch_size
    sequences_per_chunk = chunk_size // seq_len
    
    for seq in range(0, sequences_per_chunk):
        batch_inputs = np.zeros((batch_size, seq_len))
        batch_targets = np.zeros((batch_size, seq_len))
        for b in range(0, batch_size):
            fr = (b*chunk_size) + (seq*seq_len)
            to = fr + seq_len
            batch_inputs[b] = inputs[fr:to]
            batch_targets[b] = inputs[fr+1:to+1]

            if noise > 0: #"noise" aide le model a generaliser, evite l'overfitting
                noise_indices = np.random.choice(seq_len, noise)
                batch_inputs[b][noise_indices] = np.random.randint(0, vocab_size)

        yield batch_inputs, batch_targets #Permet d'appeler la fonction dans la boucle
            
inputs, targets = encoded, encoded[1:]
print("First inputs : ", inputs[:10])
print("First targets : ", targets[:10])

First inputs :  [31, 17, 24, 26, 5, 2, 35, 49, 5, 53]
First targets :  [17, 24, 26, 5, 2, 35, 49, 5, 53, 2]


In [9]:
print("\n##################### Sans noise #####################")
i = 0
for batch_inputs, batch_targets in gen_batch(inputs, targets, seq_len=5, batch_size=32, noise=0): #Sequence de 5, batch de 32
    i += 1
    print("\n----------------------Step ", i, "----------------------")
    print("\nBatch input :\n", batch_inputs.shape, "\nBatch target shape :\n", batch_targets.shape)
    print("\nBatch input :\n", batch_inputs[0], "\nBatch target :\n", batch_targets[0])
    if i > 1:
        break


##################### Sans noise #####################

----------------------Step  1 ----------------------

Batch input :
 (32, 5) 
Batch target shape :
 (32, 5)

Batch input :
 [31. 17. 24. 26.  5.] 
Batch target :
 [17. 24. 26.  5.  2.]

----------------------Step  2 ----------------------

Batch input :
 (32, 5) 
Batch target shape :
 (32, 5)

Batch input :
 [ 2. 35. 49.  5. 53.] 
Batch target :
 [35. 49.  5. 53.  2.]


In [10]:
print("\n##################### Avec noise = 3 #####################")
i = 0
for batch_inputs, batch_targets in gen_batch(inputs, targets, seq_len=5, batch_size=32, noise=3): #Sequence de 5, batch de 32
    i += 1
    print("\n---------------------- Step ", i, " ----------------------")
    print("\nBatch input :\n", batch_inputs.shape, "\nBatch target shape :\n", batch_targets.shape)
    print("\nBatch input :\n", batch_inputs[0], "\nBatch target :\n", batch_targets[0])
    if i > 1:
        break


##################### Avec noise = 3 #####################

---------------------- Step  1  ----------------------

Batch input :
 (32, 5) 
Batch target shape :
 (32, 5)

Batch input :
 [31. 17. 29. 29. 29.] 
Batch target :
 [17. 24. 26.  5.  2.]

---------------------- Step  2  ----------------------

Batch input :
 (32, 5) 
Batch target shape :
 (32, 5)

Batch input :
 [ 2. 13. 13. 13. 53.] 
Batch target :
 [35. 49.  5. 53.  2.]


# --> One hot encoding

In [11]:
#Les valeurs au dessus ne nous convienne pas pour entrainer un model il y a mieux.
#On va donc utiliser le one hot encoding pour simplifier la tache à notre model.
#Exemple de one hot encoding : a => 2 => [0, 1, 0, 0]
#Le one hot encoding est tres efficace lorsqu'on veut specifier des classes.
#En effet, il n'y a aucune raison qu'un nombres que nous donnons a un caractere
#ait un nombre plus eleve et donc avec plus de poids qu'un autre alors qu'il n'y
#a aucune hierarchie entre les caracteres.
class OneHot(tf.keras.layers.Layer): #On creer une custom layer OneHot
    
    def __init__(self, depth, **kwargs):
        super(OneHot, self).__init__(**kwargs)
        self.depth = depth
        
    def call(self, x, mask=None):
         #Transforme le x en int 32 et creer un vecteur one hot encoded
        return tf.one_hot(tf.cast(x, tf.int32), self.depth)
    
    def get_config(self): #Override get_config pour pouvoir save le model
        config = super().get_config().copy()
        config.update({
            'depth': self.depth,
        })
        return config

In [12]:
class RNNModel(tf.keras.Model):
    
    def __init__(self, vocab_size):
        super(RNNModel, self).__init__()
        self.one_hot = OneHot(len(vocab))
        
    def call(self, inputs):
        output_layer = self.one_hot(inputs)
        return output_layer
    
batch_inputs, batch_targets = next(gen_batch(inputs, targets, seq_len=50, batch_size=32)) #32 sequences, 50 elements
model = RNNModel(len(vocab))
output = model.predict(batch_inputs)[0][0]

print("Input letter :\n", batch_inputs[0][0])
print("Next letter prediction :\n", output)

Input letter :
 31.0
Next letter prediction :
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0.]


# --> Creation du model RNN

In [13]:
vocab_size = len(vocab)

#Input layer
#On ne set pas le nombre d'element dans les sequences
tf_inputs = tf.keras.Input(shape=(None,), batch_size=32) 
#One hot layer
#En lui passant tf_inputs, on specifie la shape qu'on enverra dans la layer one_hot
one_hot = OneHot(vocab_size)(tf_inputs) 
#LSTM layers
#"return_sequences" permet de specifier que l'on prend en compte plusieurs des anciennes
#cellules LSTM, si on met a False nous aurions que l'information de la derniere cellule LSTM
#"stateful" permet de specifier qu'a chaque appel on ne va pas reinitialiser les cellules.
#A chaque appel l'etat initial sera egal au dernier element de la sequence precedente
rnn_layer1 = tf.keras.layers.LSTM(128, return_sequences=True, stateful=True)(one_hot) 
rnn_layer2 = tf.keras.layers.LSTM(128, return_sequences=True, stateful=True)(rnn_layer1)
#Dense layer
hidden_layer = tf.keras.layers.Dense(128, activation="relu")(rnn_layer2)
#Output layer
output_layer = tf.keras.layers.Dense(vocab_size, activation="softmax")(hidden_layer)

#Model
model = tf.keras.Model(inputs=tf_inputs, outputs=output_layer)

In [14]:
#Reset les cellules du RNN
model.reset_states()

#Creer un premier batch
batch_inputs, target_inputs = next(gen_batch(inputs, targets, seq_len=50, batch_size=32))

#Prediction pour un premier batch
outputs = model.predict(batch_inputs)
#Prediction de la premiere sortie
first_prediction = outputs[0][0]
print("First prediction :\n", first_prediction)

model.reset_states()

#Deuxieme prediction, c'est exactement la meme grace au stateful=True
outputs = model.predict(batch_inputs)
second_prediction = outputs[0][0]
print("Second prediction :\n", second_prediction)

#Check si les deux predictions sont egales avec un reset_state() entre les deux
assert(set(first_prediction)==set(second_prediction))

First prediction :
 [0.0175922  0.01755079 0.01758404 0.01756127 0.01746607 0.01760784
 0.01756605 0.0175176  0.01746702 0.01754959 0.0174946  0.01754105
 0.01754688 0.01754523 0.01757365 0.01753175 0.01750153 0.01756241
 0.0175528  0.01750962 0.01759637 0.01758435 0.01750205 0.01752504
 0.01762402 0.01750478 0.01752348 0.01755448 0.01755507 0.01755614
 0.01752438 0.01752501 0.01755911 0.01761584 0.01760784 0.01751597
 0.0174827  0.01754175 0.01757086 0.01754703 0.01747712 0.01755028
 0.0175303  0.01752012 0.01752548 0.01755951 0.01750464 0.01755796
 0.01758248 0.01748202 0.01758216 0.01755241 0.0175486  0.01758036
 0.0175125  0.01750905 0.01758676]
Second prediction :
 [0.0175922  0.01755079 0.01758404 0.01756127 0.01746607 0.01760784
 0.01756605 0.0175176  0.01746702 0.01754959 0.0174946  0.01754105
 0.01754688 0.01754523 0.01757365 0.01753175 0.01750153 0.01756241
 0.0175528  0.01750962 0.01759637 0.01758435 0.01750205 0.01752504
 0.01762402 0.01750478 0.01752348 0.01755448 0.017555

In [15]:
loss_object = tf.keras.losses.SparseCategoricalCrossentropy()
optimizer = tf.keras.optimizers.Adam(lr=0.001) #lr : learning rate
train_loss = tf.keras.metrics.Mean(name="train_loss")
train_accuracy = tf.keras.metrics.SparseCategoricalAccuracy()

In [16]:
@tf.function
def train_step(inputs, targets):
    with tf.GradientTape() as tape:
        #Fait une prediction sur le batch
        predictions = model(inputs)
        #Recupere l'erreur par rapport aux predictions faites
        loss = loss_object(targets, predictions)
    #Calcul du gradient
    gradients = tape.gradient(loss, model.trainable_variables)
    #Change les poids du model grace au gradient
    optimizer.apply_gradients(zip(gradients, model.trainable_variables))
    #Garde l'information sur l'evolution de l'entrainement
    train_loss(loss)
    train_accuracy(targets, predictions)

@tf.function
def predict(inputs):
    # Fait une prediction sur tous le batch
    predictions = model(inputs)
    return predictions

# --> Entrainement du model

In [20]:
model.reset_states()

model.summary()

for epoch in range(10):
    #Pendant toute cette etape dans le for, on ne reinitialise pas les states
    for batch_inputs, batch_targets in gen_batch(inputs, targets, seq_len=100, batch_size=32, noise=13): #Sequence de taille 100, batch de 32
        train_step(batch_inputs, batch_targets)
    template = '\r Epoch {}, Train Loss: {}, Train Accuracy: {}'
    print(template.format(epoch, 
                          train_loss.result(), 
                          train_accuracy.result()*100), end="")
    model.reset_states() #On reinitialise le state pour la prochaine epoch

Model: "model"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         [(32, None)]              0         
_________________________________________________________________
one_hot_1 (OneHot)           (32, None, 57)            0         
_________________________________________________________________
lstm (LSTM)                  (32, None, 128)           95232     
_________________________________________________________________
lstm_1 (LSTM)                (32, None, 128)           131584    
_________________________________________________________________
dense (Dense)                (32, None, 128)           16512     
_________________________________________________________________
dense_1 (Dense)              (32, None, 57)            7353      
Total params: 250,681
Trainable params: 250,681
Non-trainable params: 0
_______________________________________________________

# --> Sauveguarde du model

In [18]:
import json
model.save("model_rnn.h5")

with open("model_rnn_vocab_to_int", "w") as f:
    f.write(json.dumps(vocab_to_int))
with open("model_rnn_int_to_vocab", "w") as f:
    f.write(json.dumps(int_to_vocab))

# --> Generation de poeme

In [21]:
import random

model.reset_states()

size_poetries = 300

poetries = np.zeros((32, size_poetries, 1))
sequences = np.zeros((32, 100))
for b in range(32):
    rd = np.random.randint(0, len(inputs) - 100)
    sequences[b] = inputs[rd:rd+100]

for i in range(size_poetries+1):
    if i > 0:
        poetries[:,i-1,:] = sequences
    softmax = predict(sequences)
    # Set the next sequences
    sequences = np.zeros((32, 1))
    for b in range(32):
        argsort = np.argsort(softmax[b][0])
        argsort = argsort[::-1]
        # Select one of the strongest 4 proposals
        sequences[b] = argsort[0]

for b in range(32):
    sentence = "".join([int_to_vocab[i[0]] for i in poetries[b]])
    print(sentence)
    print("\n=====================\n")

e le cous le cous le coure et le poure 

Le cous le cous le cous le coure et le mes le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le 


 le coure et le poure 

Le cous le cous le cous le coure et le mes le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le


es le mes le mes le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le l


 le mes le mes le le le le le le le le le le le le le le le le le le le le le le le le le l