##### Copyright 2019 The TensorFlow Authors.

In [None]:
#@title Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Génération de texte avec un RNN

Ce tutoriel explique comment générer du texte à l'aide d'un RNN basé sur des caractères. Nous allons travailler avec un ensemble de données de l'écriture de Molière tirée de Project Gutenberg (http://www.gutenberg.org). Étant donné une séquence de caractères, entraînez un modèle pour prédire le prochain caractère de la séquence. Par exemple, si nous sommes donnés la séquence de caractères "Molièr", prédire le prochain caractère tel que "e". Des séquences de texte plus longues peuvent être générées en appelant le modèle à plusieurs reprises.

Activez l'accélération GPU pour exécuter ce notebook plus rapidement. Dans Colab: *Runtime > Change runtime type > Hardware acclerator > GPU*.

Ce tutoriel comprend du code de [tf.keras] (https://www.tensorflow.org/programmers_guide/keras) et de [eager execution] (https://www.tensorflow.org/programmers_guide/eager). Voici un exemple de sortie lorsque le modèle de ce tutoriel a été entraîné pour 30 époques.

<pre>
    DON PÈDRE.

    Il est vrai, ma fille, vous représentez un peu la conscience,
      Gardez qu'on accommoder sur ce moment comme lui.

        SOSIE.

                  Me voilà donc, monsieur, d'une âme:
        Tous deux également tendent toute l'amour que cela pourra done.

    SCÈNE III.--DON JUAN, SGANARELLE.

    DON JUAN.

    Me fera-t-on l'âme te fait? J'ai voulu se tacevoir tout nu, puisque tu puis voir accepter votre petits vertus,
    Qui me fait souffrir qu'un tour exemplaisir;
      Et ce choix démentir maître un certe montsir Oronte, Dupa chose;
    Et, tandis qu'à cause les plus grands médecins tous les diables. Et mous offrir médecins et indivertirs son
    nennence de sa façon.

  MARPHURIUS.

  Assurément; mais mon cher marquis, je ne l'équez vous plaire;
    Ces grands satyres affreux des chanses le plus vite que vous avez
    que je me sers avec grands merveilles; et c'est là votre personne en mêle,
    Des lui soient prévenus de la beauté du ciel;
     Dander de la belle parole; je suis assez humani.
    Je serai cette prière raison d'être médecine?

    SGANARELLE.

    Ce vie embarrasser qu'on n
</pre>

Bien que certaines phrases soient grammaticales, la plupart n’ont pas de sens. Le modèle n'a pas appris le sens des mots, mais considérez:

* Le modèle est basé sur les caractères. Lorsque la formation a commencé, le modèle ne savait pas comment épeler un mot français, ni que ces mots constituaient même une unité de texte.

* La structure de la sortie ressemble aux blocs de texte dans une pièce commencent généralement par un nom de locuteur, en toutes lettres majuscules, similaire à l'ensemble de données.

* Comme illustré ci-dessous, le modèle est entraîné sur les petites séquences de texte (100 caractères chacun), mais est capable de générer une séquence de texte plus longue avec une structure cohérente.

## Préparatifs

### Importer TensorFlow et d'autres bibliotheques (libraries)

In [None]:
from __future__ import absolute_import, division, print_function, unicode_literals

try:
  # %tensorflow_version only exists in Colab.
  %tensorflow_version 2.x
except Exception:
  pass
import tensorflow as tf

import numpy as np
import os
import time

In [None]:
# Vous pouvez utiliser le code au-dessus si vous exécutez votre programme sur colab pour copier les fichiers de données
# à l'environment locale de colab.
#from google.colab import files
#!mkdir data
#%cd data
#upload = files.upload()
#%cd ..

try:
  tf.enable_eager_execution()
except Exception:
  pass
if tf.executing_eagerly() :
    print("Eager execution enabled")
else:
    print("Eager execution enabled failed")

### Telecharger les données de Molière

Vous pouvez modifier la ligne suivante pour exécuter ce code sur vos propres données.

In [None]:
# lire le fichier local
# il y a 5 fichiers d'ensembles de textes de Molière
# molière1.txt 465Ko, molière2.txt 448Ko, molière3.txt 513Ko, molière4.txt 472Ko, molière50000.txt 1436Ko, molière.txt 2032Ko
# molière.txt est l'ensemble de tous les oeuvres de Molière, molière1-4 est l'ensemble divisié à travers 4 fichiers, et
# molière50000.txt est la moitié de l'ensemble complete.
# il y a aussi une sélection de Shakespeare en anglais, shakespeare.txt 1090Ko
# Vous pouvez tester sur votre ordinateur avec les fichiers plus petits avant de passer aux fichiers plus grands sur colab.
path_to_file = 'data/molière50000.txt'

### Lire les données

Jetez un coup d'œil sur le texte

In [None]:
text = open(path_to_file, 'rb').read().decode(encoding='utf-8')
print ('Length of text: {} characters'.format(len(text)))

In [None]:
# Regardez les premièrs 500 caractères dans le texte
print(text[:500])

**Tâche 1 (Caractères Features)** Selectionnez et triez les features (caractères uniques).

In [None]:
# trouvez tous les caractères uniques dans le texte
vocab = #######  Votre code ici #######
print ('{} unique characters'.format(len(vocab)))

## Traiter le texte

### Vectoriser le texte

Afin de préparer pour l'étape d'entraînement, nous devons convertir les chaînes de caractères à une représentation numérique. Créez deux lookup tables (table de correspondance): une mappant des caractères aux nombres et une autre pour des nombres aux caractères.

In [None]:
# Creating a mapping from unique characters to indices
char2idx = {u:i for i, u in enumerate(vocab)}
idx2char = np.array(vocab)

**Tâche 2 (Préparez le texte)**  Convertissez les caractères du texte en valeurs entières.

In [None]:
text_as_int = np.array( ####### Votre code ici ####### )

In [None]:
print('{')
for char,_ in zip(char2idx, range(20)):
    print('  {:4s}: {:3d},'.format(repr(char), char2idx[char]))
print('  ...\n}')

In [None]:
# Montrez comment les 13 premiers caractères du texte sont mappés à des valeurs entières
print ('{} ---- characters mapped to int ---- > {}'.format(repr(text[:13]), text_as_int[:13]))
# Montrez comment les 13 derniers caractères du texte sont mappés à des valeurs entières
print ('{} ---- characters mapped to int ---- > {}'.format(repr(text[-13:]), text_as_int[-13:]))

### La prévision par caractère

Étant donné un caractère ou une séquence de caractères, quel est le caractère suivant le plus probable? C'est la tâche que nous entraînerons le modèle à effectuer. L'entrée au modèle sera une séquence de caractères, et nous apprenons au modèle à prédire la sortie - le caractère suivant à chaque pas de temps.

Plus précisément pour le RNN, puisque les RNN maintiennent un état interne qui dépend des éléments vus précédemment, la tâche se propose comme : étant donné tous les caractères calculés jusqu'à ce moment, quel est le prochain caractère ?


### Créer des textes pour l'entraînement et ses cibles (les bonnes réponses)

Divisez le texte en séquences. Chaque séquence d'entrée contiendra les caractères `seq_length` du texte.

Pour chaque séquence d'entrée, les cibles correspondantes contiennent la même longueur de texte, à l'exception du caractère décalé d'un caractère vers la droite.

Donc, divisez le texte en morceaux de `seq_length + 1`. Par exemple, disons `seq_length` vaut 4 et notre texte est "Hello". La séquence d'entrée serait "Hell" et la séquence cible "ello".

D’abord, nous utiliserons la fonction `tf.data.Dataset.from_tensor_slices` pour convertir le vecteur de texte en un flux (stream) d’index de caractères.

**Tâche 3 (Datasets)**

In [None]:
# **seq_length** La longueur maximale en caractères de la phrase pour une seule entrée
seq_length = 100
examples_per_epoch = len(text)//(seq_length+1)

# Créez morceaux de texte pour l'entraînement et les cibles
char_dataset = ### VOTRE CODE ICI Créez le Dataset char_dataset des tensor slices (le texte vectorisé) ###

# .Numpy peut être utiliser uniquement en mode eager. En mode graphique, vous devez utiliser
# eval dans une session pour obtenir la valeur du tenseur dans le tableau numpy.
if tf.executing_eagerly() :
    for i ### VOTRE CODE ICI Imprimez les premiers 5 éléments du Dataset pour l'entraînement ###     
        print(idx2char[i.numpy()])
else :
    iter = char_dataset.make_one_shot_iterator()
    with tf.Session() as sess:
        for x in range(0,5):
            print(idx2char[(sess.run(iter.get_next()))])

La méthode `batch` combine des éléments consécutifs d'un Dataset en lots (batch). Cela nous permet de convertir facilement des caractères individuels en séquences de la taille souhaitée **seq_length+1**.

In [None]:
# sequences = ### VOTRE CODE ICI Combine des éléments (batch) du Dataset d'entraînement. Utilisez la taille seq_length+1 et
# assurez que tous les batch (le dernier compris) ont la même taille. ###
sequences = char_dataset.batch(seq_length+1, drop_remainder=True)

for item ### VOTRE CODE ICI Imprimez les premières 5 séquences ###
  print(repr(''.join(idx2char[item.numpy()])))

**map** exécute des fonctions sur les éléments de le dataset et renvoie un nouvel dataset contenant les éléments transformés, dans le même ordre de l'entrée.
Pour chaque séquence, dupliquez-la et décalez-la d'un caractère pour créer le texte d'entrée et le texte cible en utilisant la méthode `map` pour appliquer l'objet split_input_target aux séquences déjà découpées en tranches.

**Tâche 3** Créez le texte d'entrée et son texte cible (la bonne réponse), les données d'entraînement (train).

In [None]:
def split_input_target(chunk):
    input_text = ####### Votre code ici #######
    target_text = ####### Votre code ici ####### 
    return input_text, target_text

dataset = ### VOTRE CODE ICI Utilisez le method map pour exécuter la fonction split_input_target afin de transformer 
                                                    # les séquences en nouvelles séquences décaler par un caractère

**Tâche 4 Compréhension**
Imprimer la première séquence : le texte d'entrée et le texte ciblé. Assurez-vous que vous comprenez au-dessous comment la fonction split_input_target est exécutée sur le premier élément du Dataset dataset afin de produire les deux chaînes de caractères.

In [None]:
for input_example, target_example in  dataset.take(1):
  print ('Input data: ', repr(''.join(idx2char[input_example.numpy()])))
  print ('Target data:', repr(''.join(idx2char[target_example.numpy()])))

Chaque elément (@index) de ces vecteurs est traité comme un pas de temps. Pour l'entrée au pas de temps 0, le modèle reçoit l'index pour la toute première lettre "F" et essaie de prédire l'indice pour "i" en tant que caractère suivant. Au pas de temps suivant, il fait la même chose mais le `RNN` considère le contexte de l’étape précédente en plus du caractère d’entrée actuel.

Nous imprimons les premiers 5 étapes avec la lettre d'entrée (pas de temp n) et la lettre prédite (pas de temp n+1)

In [None]:
for i, (input_idx, target_idx) in enumerate(zip(input_example[:5], target_example[:5])):
    print("Step {:4d}".format(i))
    print("  input: {} ({:s})".format(input_idx, repr(idx2char[input_idx])))
    print("  expected output: {} ({:s})".format(target_idx, repr(idx2char[target_idx])))

### Créer des lots (batch) d'entraînement

Utiliser `tf.data` pour scinder le texte en séquences gérables (batch). La taille des lots (BATCH_SIZE) est une paramètre relative à la performance, typiquement reposant sur l'expérience. Puis, nous allons mélanger (shuffle) les lots. En mélangeant les lots, on essaye de rendre l'entraînement plus robuste.

**Tâche 5** Scindez (batch), puis, mélangez (shuffle) les lots. Utilisez les methodes de tf.data.Dataset. Fixez la paramètre
drop_remainder=True.

In [None]:
# Taille de lots en octets
BATCH_SIZE = 64

# Taille du tampon utilisé pour mélanger les lots en octets
BUFFER_SIZE = 10000

dataset = ####### VOTRE CODE ICI #######

dataset

## Construire le modèle

**Tâche 6** Ecrivez le code pour le fonction build_model en bas.
Utilisez `tf.keras.Sequential` pour définir le modèle. Pour notre projet, trois couches (layers) sont utilisées pour définir notre modèle:

* `tf.keras.layers.Embedding`: La couche d'entrée. Une table de consultation (lookup table) utiliser pour mapper les numéros de chaque caractère à un vecteur de dimensions `embedding_dim`;
* `tf.keras.layers.GRU`: Un RNN de taille `units=rnn_units`
* `tf.keras.layers.Dense`: La couche de sortie, avec `vocab_size` pour la dimension de la sortie .
Les astuces sont données en bas pour configuer les paramètres pour chaque couche.

Pour chaque caractère, le modèle trouve l'embedding, exécute GRU un seul pas de temps avec l'embedding en tant qu'entrée et applique la couche dense pour générer des logits (numéro réel) prédisant le log-likelihood (probabilité) du caractère suivant.

In [None]:
# Taille du vocabulaire en caractères
vocab_size = len(vocab)

# La dimension de la couche d'entrée Embedding.
embedding_dim = 256

# Nombre d'unités RNN
rnn_units = 1024

In [None]:
def build_model(vocab_size, embedding_dim, rnn_units, batch_size):
#    # Taille des séquences d'entrée
#  Embedding_input_length = [batch_size, None]    
#  # astuces paramétres Embedding layer
#  #    Fixer la valeur de vocab_size, embedding_dim, et batch_input_shape=[batch_size, None]
#  #    ne pas utiliser: embeddings_initializer, embeddings_regularizer, embeddings_constraint, mask_zero
#  # astuces paramétres GRU Layer
#  #    Fixez la valuer de rnn_units. Fixez return_sequences=True, stateful=True, recurrent_initializer='glorot_uniform'
#  #    ne pas utiliser tous autres paramétres
#  # astuces paramétres Dense Layer
#  #    Fixez la valeur de units. Ne pas utiliser tous autres paramétres.
#    model = ######## VOTRE CODE ICI #######
  return model

In [None]:
model = build_model(
  vocab_size = len(vocab),
  embedding_dim=embedding_dim,
  rnn_units=rnn_units,
  batch_size=BATCH_SIZE)

## Essayer le modèle (avant l'entraînement)

Le modèle peut être utilisé directement sans entraînement. On ne peut pas attendre les bons résultats, mais nous pouvons vérifier que le fonctionnement du modèle.

La taille de séquence de l'entrée est 100 mais le modèle peut être exécuté sur des entrées de n'importe quelle taille.

Nous exécutons le model sur la première séquence dans le Dataset (qui est aléatoire parce que nous avons effectué un "shuffle". Puis, nous imprimons le shape (dimensions) de la sortie (les prévisions). (Pourquoi ces dimensions?)

In [None]:
for input_example_batch, target_example_batch in dataset.take(1):
  example_batch_predictions = model(input_example_batch)
  print(example_batch_predictions.shape, "# (batch_size, sequence_length, vocab_size)")

Maintenant, nous regardons à la structure du modèle. Nous voyons les dimensions de chaque couche (pourquoi ces dimensions?) et le nombre de paramètres entraînable dans chaque couche (ce numéro dépend sur la composition interne de la couche).

In [None]:
model.summary()

**example_batch_predictions** contient les probabilités (logits) initiales pour la chaîne de 100 caractères (_sequence_length_) dans les 64 chaînes (_batch_size_). Nous allons trouver les indices de caractères pour chaque prévision.

Nous prenons les échantillons aléatoires (_random.categorical_). Ils sont les valeurs initiales pour démarrer l'entraînement.  Les valeurs sont trouvées aléatoirement et pas simplement par le _argmax_ de chaque lot (batch) afin que l'entraînement progresse bien vers un vrai minima (en raison de le comportement de gradient descent).

Nous l'essayons pour le premier exemple dans les lots.

In [None]:
print(len(example_batch_predictions))
print(len(example_batch_predictions[0]))
print(example_batch_predictions)

In [None]:
sampled_indices = tf.random.categorical(example_batch_predictions[0], num_samples=1)

In [None]:
print(len(sampled_indices))
print(sampled_indices)

_squeeze_ pour faire une 1D _numpy_ tableau (array)

In [None]:
sampled_indices = tf.squeeze(sampled_indices,axis=-1).numpy()

Maintenant, pour chaque pas de temp, nous avons une prévision pour le prochain indice de caractère.

In [None]:
sampled_indices

Et convertir l'indice en caractère pour voir le texte prévu.

In [None]:
print("Input: \n", repr("".join(idx2char[input_example_batch[0]])))
print()
print("Next Char Predictions: \n", repr("".join(idx2char[sampled_indices ])))

## Entraîner le modèle

Maintenant, le problème est convenablement configuré et nous pouvons le traiter comme une classification normale. Donnant l'état précédente du RNN, et la donnée d'entrée pour le pas de temps actuel, prédire la classe de le prochain caractère.

### Definir une loss function (fonction de perte), Compiler le modèle avec un optimizer (optimisateur) et la loss fonction.

Nous utiliserons la loss function `tf.keras.losses.sparse_categorical_crossentropy`

In [None]:
def loss(labels, logits):
  return tf.keras.losses.sparse_categorical_crossentropy(labels, logits, from_logits=True)

example_batch_loss  = loss(target_example_batch, example_batch_predictions)
print("Prediction shape: ", example_batch_predictions.shape, " # (batch_size, sequence_length, vocab_size)")
print("scalar_loss:      ", example_batch_loss.numpy().mean())

**Tâche 7** Compilez les paramètres de l'entraînement avec `tf.keras.Model.compile` . Nous emploierons juste deux paramètres, la méthode de réviser les parametres (optimizer) et la méthode pour calculer la fonction de perte (loss). L'optimizer recommandé est 'adam' (`tf.keras.optimizers.Adam`). L'optimisation d'Adam est une méthode de descente de gradient stochastique (stochastic gradient descent) basée sur une estimation adaptative des moments du premier et du second ordre. La fonction de perte est la fonction que vous avez créée et testée au-dessus. 

In [None]:
####### VOTRE CODE ICI #######

### Configuer les checkpoints (pointes de contrôles)

Nous allons sauvegarder les checkpoints (pointes de contrôle) pour chaque epoch avec les poids (weights) que le modèle a trouvé. Une fois que les checkpoint sont sauvegardés, nous pouvons revenir à un checkpoint pour générer les prévisions avec les poids qui nous avons obtenu à ce niveau d'entraînement.

In [None]:
# Dosser où les checkpoints seront sauvegardés
checkpoint_dir = './training_checkpoints'
# Nom de chaque fichier checkpoint
checkpoint_prefix = os.path.join(checkpoint_dir, "ckpt_{epoch}")

checkpoint_callback=tf.keras.callbacks.ModelCheckpoint(
    filepath=checkpoint_prefix,
    save_weights_only=True)

### Executer l'entraînement

Il faut maintenant choisir le nombre d'époques (EPOCHS) pour l'entraînement. Un fichier de 1500 Ko (molière5000) colab, sans GPU, a pris 1255 seconds par époque. Nous pouvons demander d'utiliser le GPU si nous faisons l'entraînement sur Colab pour raccourcir le temps - mais, si un GPU n'est pas disponible le code exécutera sur un CPU. Sur un fichier de 1000 Ko (shakespeare) mon ordinateur avec un Ryzen 5 chaque époque a pris 20 minutes, sur le GPU de Colab, 24 secondes. Le CPU de Colab (sans accélération) a pris 16 minutes.

In [None]:
EPOCHS= ### VOTRE VALEUR ICI ###

In [None]:
history = model.fit(dataset, epochs=EPOCHS, callbacks=[checkpoint_callback])

## Génération du texte

### Restauer le dernier checkpoint (point de contrôle)

Pour l'inférence (utilisation d'un modèle entraîné pour les prévisions) nous pouvons traiter les données avec un taille de lot (_batch_size_) = 1. Mais, il faut reconstruire (_build_) le modèle avec la nouvelle _batch_size_. On a besoin juste de lui fournir les poids (_weights_) finals, pas besoin de répéter l'entraînement.

In [None]:
tf.train.latest_checkpoint(checkpoint_dir)

In [None]:
model = build_model(vocab_size, embedding_dim, rnn_units, batch_size=1)

model.load_weights(tf.train.latest_checkpoint(checkpoint_dir))

model.build(tf.TensorShape([1, None]))

In [None]:
model.summary()

### La boucle de prévision

La boucle suivante de code générera le texte:

* Initialisation: une chaîne de caractères de début, l'état du RNN et le nombre de caractères à générer.

* Obtenez la distribution de prédiction du prochain caractère avec la chaîne de caractère de début et de l'état du RNN.

* Ensuite, utilisez la distribution catégorique pour calculer l’indice du caractère prédit. Puis, utilisez ce caractère prédit comme la prochaine entrée dans le modèle.

* L'état du RNN renvoyé par le modèle rentre encore dans le modèle afin qu'il ait maintenant plus de contexte, au lieu d'une seule caractère. Après avoir prédit le mot suivant, les états des RNN modifiés sont à nouveau rentrés dans le modèle, ainsi le modèle apprend au fur et à mesure qu'il récupère le contexte des mots prédits précédemment.

En regardant le texte généré, vous verrez que le modèle sait faire les lettres majuscules, faire des paragraphes et imiter un vocabulaire d'écriture semblable à celui de Shakespeare. Avec le petit nombre d’époques de formation, il n’a pas encore appris à former des phrases cohérentes.

In [None]:
def generate_text(model, start_string):
# L'étape de l'evaluation (génération du text par un modèle entraîné)

  # Nombre de caractères à générer
  num_generate = 1000

  # Convertir la chaîne de caractères de début aux nombres (vectorisation)
  input_eval = [char2idx[s] for s in start_string]
  input_eval = tf.expand_dims(input_eval, 0)

  # Chaîne de caractères pour le résultat
  text_generated = []

    # Les températures basses donnent un texte plus prévisible.
    # Des températures plus élevées produisent un texte plus surprenant.
    # Faites des essais pour trouver le meilleur réglage.
  temperature = 1.0

  # batch size == 1
  model.reset_states()
  for i in range(num_generate):
      predictions = model(input_eval)
      # enlever une dimension batch (squeeze)
      predictions = tf.squeeze(predictions, 0)

      # on utilise la distribution catagorique pour prédire le texte renvoyé par le modèle
      predictions = predictions / temperature
      predicted_id = tf.random.categorical(predictions, num_samples=1)[-1,0].numpy()

      # la lettre prédit est ajouté à la prochaine entrée du modèle  
      input_eval = tf.expand_dims([predicted_id], 0)

      text_generated.append(idx2char[predicted_id])

  return (start_string + ''.join(text_generated))

In [None]:
print(generate_text(model, start_string=u"  GÉRONTE.: "))

**ESSAYER D'AMELIORER VOS RESULTATS**
La méthode la plus facile à améliorer les résultats est d'augmenter le nombre d'époques d'entraînement (essayez `EPOCHS=30`).

Vous pouvez également expérimenter avec une autre chaîne de caractères de départ ou essayer d'ajouter une autre couche RNN pour améliorer la précision du modèle ou d'ajuster le paramètre de température pour générer des prédictions plus ou moins aléatoires.