### TP traduction
Pour ce tp vous devrez créer votre premier traducteur ! Pour ce faire vous vous appuierez sur une architecture que vous connaisez déjà : Seq2Seq. Pour rappel cette architecture est composée de deux parties qui sont toutes les deux composées de cellules LSTM. 
- La première partie est appelée Encoder : dans l'intuition ce brique va permettre de transformer le langage source dans un espace latent à plus faible dimension, plus compacte. C'est un petit peu comme si c'était encodé dans un langage que la machine comprenait
- LA seconde est le Decoder : son principe est inverse, il va reconvertir l'espace latent vers le langage pour lequl il a été entrainé.
    
Ce type d'architecture était à l'état de l'art en traduction en 2015, quand vous utilisez google trad à l'époque vous utilisiez déjà un modèle de Deep Learning. 

Dans ce tp l'exemple sera simplifié pour que vous puissiez l'éxécuter sur votre machine. La principale "brique" manquante pour avoir des traducteurs est l'attention. Nous expliquerons ce concept largement dans les prochaines semaines.

# Import

In [2]:
import os, sys

from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, LSTM, GRU, Dense, Embedding
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import to_categorical
import numpy as np
import matplotlib.pyplot as plt
import pickle

### Constantes 

In [3]:
BATCH_SIZE = 64
EPOCHS = 20
LSTM_NODES =256
NUM_SENTENCES = 2000 # on commence petit pour la première itération 
MAX_SENTENCE_LENGTH = 50
MAX_NUM_WORDS = 20000
EMBEDDING_SIZE = 100

# Données

vous pouvez télécharger les données ici : http://www.manythings.org/anki/fra-eng.zip
Ce fichier relativement simple représente différentes traductions Français - Anglais

Une fois téléchargé, dézippé les données 

# Data processing

Nous allons rajouter deux tokens pour chaque phrase, un pour marquer le début de la phrase et un pour marquer la fin : "eos" "sos"

In [5]:
input_sentences = []
output_sentences = []
output_sentences_inputs = []

with open('../../data/x_train.pickle', 'rb') as handle:
    X_train = pickle.load(handle)
with open('../../data/y_train.pickle', 'rb') as handle:
    y_train = pickle.load(handle)
with open('../../data/x_val.pickle', 'rb') as handle:
    X_val = pickle.load(handle)
with open('../../data/y_val.pickle', 'rb') as handle:
    y_val = pickle.load(handle)
    
count = 0
for line in X_train['answer']:
    count += 1

    if count > NUM_SENTENCES:
        break

    if '\t' not in line:
        continue

    input_sentence, output, _ = line.rstrip().split('\t')

    output_sentence = output + ' <eos>'
    output_sentence_input = '<sos> ' + output

    input_sentences.append(input_sentence)
    output_sentences.append(output_sentence)
    output_sentences_inputs.append(output_sentence_input)

print("num samples input:", len(input_sentences))
print("num samples output:", len(output_sentences))
print("num samples output input:", len(output_sentences_inputs))

num samples input: 0
num samples output: 0
num samples output input: 0


# Tokenization et Padding

On tokenize le texte, avec un tokenizer francais et un anglais

In [7]:
input_sentences

['Go.',
 'Go.',
 'Go.',
 'Hi.',
 'Hi.',
 'Run!',
 'Run!',
 'Run!',
 'Run!',
 'Run!',
 'Run!',
 'Run!',
 'Run!',
 'Run.',
 'Run.',
 'Run.',
 'Run.',
 'Run.',
 'Run.',
 'Run.',
 'Run.',
 'Who?',
 'Wow!',
 'Fire!',
 'Help!',
 'Jump!',
 'Jump.',
 'Stop!',
 'Stop!',
 'Stop!',
 'Wait!',
 'Wait!',
 'Wait!',
 'Wait.',
 'Wait.',
 'Wait.',
 'Wait.',
 'Begin.',
 'Begin.',
 'Go on.',
 'Go on.',
 'Go on.',
 'Hello!',
 'Hello!',
 'I see.',
 'I see.',
 'I try.',
 'I won!',
 'I won!',
 'I won.',
 'Oh no!',
 'Relax.',
 'Relax.',
 'Relax.',
 'Relax.',
 'Relax.',
 'Relax.',
 'Relax.',
 'Relax.',
 'Relax.',
 'Relax.',
 'Relax.',
 'Relax.',
 'Smile.',
 'Smile.',
 'Smile.',
 'Attack!',
 'Attack!',
 'Attack!',
 'Cheers!',
 'Cheers!',
 'Cheers!',
 'Cheers!',
 'Eat it.',
 'Eat it.',
 'Get up.',
 'Get up.',
 'Go now.',
 'Go now.',
 'Go now.',
 'Got it!',
 'Got it!',
 'Got it!',
 'Got it?',
 'Got it?',
 'Got it?',
 'Hop in.',
 'Hop in.',
 'Hug me.',
 'Hug me.',
 'I fell.',
 'I fell.',
 'I fled.',
 'I knit.',
 'I

In [12]:
input_tokenizer = Tokenizer(num_words=MAX_NUM_WORDS)
input_tokenizer.fit_on_texts(input_sentences)
input_integer_seq = input_tokenizer.texts_to_sequences(input_sentences)

word2idx_inputs = input_tokenizer.word_index
print('Total unique words in the input: %s' % len(word2idx_inputs))

max_input_len = max(len(sen) for sen in input_integer_seq)
print("Length of longest sentence in input: %g" % max_input_len)

Total unique words in the input: 552
Length of longest sentence in input: 4


In [11]:
output_tokenizer = Tokenizer(num_words=MAX_NUM_WORDS, filters='')
output_tokenizer.fit_on_texts(output_sentences + output_sentences_inputs)
output_integer_seq = output_tokenizer.texts_to_sequences(output_sentences)
output_input_integer_seq = output_tokenizer.texts_to_sequences(output_sentences_inputs)

word2idx_outputs = output_tokenizer.word_index
print('Total unique words in the output: %s' % len(word2idx_outputs))

num_words_output = len(word2idx_outputs) + 1
max_out_len = max(len(sen) for sen in output_integer_seq)
print("Length of longest sentence in the output: %g" % max_out_len)

Total unique words in the output: 1508
Length of longest sentence in the output: 11


On applique maintenat un padding : 

In [13]:
encoder_input_sequences = pad_sequences(input_integer_seq, maxlen=max_input_len)
print("encoder_input_sequences.shape:", encoder_input_sequences.shape)
print("encoder_input_sequences[172]:", encoder_input_sequences[72])

encoder_input_sequences.shape: (2000, 4)
encoder_input_sequences[172]: [  0   0   0 173]


In [14]:
decoder_input_sequences = pad_sequences(output_input_integer_seq, maxlen=max_out_len, padding='post')
print("decoder_input_sequences.shape:", decoder_input_sequences.shape)
print("decoder_input_sequences[172]:", decoder_input_sequences[72])

decoder_input_sequences.shape: (2000, 11)
decoder_input_sequences[172]: [  2 602   3   0   0   0   0   0   0   0   0]


In [15]:
print(word2idx_outputs["<sos>"])
print(word2idx_outputs["je"])
print(word2idx_outputs["suis"])

2
4
5


# Word Embedding

Nous allons vectorisé les mots en utilisant des embeddings déjà entrainé. Pour changer nous allons utiliser ceux de Glove ! Vous pouvez télécharger une version ici : https://www.kaggle.com/danielwillgeorge/glove6b100dtxt
        - Cette version contient des vecteurs de taille 100

Le fichier contient une ligne par mot, pour chaque ligne le premier élément est le mot, la suite de la ligne est constituée d'une liste de 100 valeurs

In [17]:
from numpy import array
from numpy import asarray
from numpy import zeros

embeddings_dictionary = dict()

glove_file = open(r'../../data/fra-eng/glove.6B.100d.txt', encoding="utf8")


#On se crée un dictionnaire pour pouvoir facilement travailler avec les vecteurs de glove, en insérant en cé chaque mot et en valeur la liste des vecteurs
for line in glove_file:
    records = line.split()
    #le mot
    word = records[0]
    vector_dimensions = asarray(records[1:], dtype='float32') # on récupère la liste des valeurs
    embeddings_dictionary[word] = vector_dimensions
glove_file.close()

In [18]:
num_words = min(MAX_NUM_WORDS, len(word2idx_inputs) + 1)
# on initilialise une matrice vide que l'on va remplir
embedding_matrix = zeros((num_words, EMBEDDING_SIZE))

for word, index in word2idx_inputs.items():
    embedding_vector = embeddings_dictionary.get(word)
    if embedding_vector is not None:
        embedding_matrix[index] = embedding_vector

On peut désormias facilement à partir d'un mot récupérer son vecteur : 

In [19]:
print(embeddings_dictionary["the"])

[-0.038194 -0.24487   0.72812  -0.39961   0.083172  0.043953 -0.39141
  0.3344   -0.57545   0.087459  0.28787  -0.06731   0.30906  -0.26384
 -0.13231  -0.20757   0.33395  -0.33848  -0.31743  -0.48336   0.1464
 -0.37304   0.34577   0.052041  0.44946  -0.46971   0.02628  -0.54155
 -0.15518  -0.14107  -0.039722  0.28277   0.14393   0.23464  -0.31021
  0.086173  0.20397   0.52624   0.17164  -0.082378 -0.71787  -0.41531
  0.20335  -0.12763   0.41367   0.55187   0.57908  -0.33477  -0.36559
 -0.54857  -0.062892  0.26584   0.30205   0.99775  -0.80481  -3.0243
  0.01254  -0.36942   2.2167    0.72201  -0.24978   0.92136   0.034514
  0.46745   1.1079   -0.19358  -0.074575  0.23353  -0.052062 -0.22044
  0.057162 -0.15806  -0.30798  -0.41625   0.37972   0.15006  -0.53212
 -0.2055   -1.2526    0.071624  0.70565   0.49744  -0.42063   0.26148
 -1.538    -0.30223  -0.073438 -0.28312   0.37104  -0.25217   0.016215
 -0.017099 -0.38984   0.87424  -0.72569  -0.51058  -0.52028  -0.1459
  0.8278    0.27062 ]

# Model 

Il faut maintenant créer une matrice "y_true" one_hot de sortie. Cette matrice est de taille (nombre de lignes à prédire, longueur maximale d'une phrase, nombre de mots dans le vocabulaire)

In [20]:
num_words

553

In [21]:
max_input_len


4

In [22]:
#On crée une matrice vide à l'aide de np.zeros
decoder_targets_one_hot = np.zeros((
        len(input_sentences),
        max_out_len,
        num_words_output
    ),
    dtype='float32'
)

In [23]:
decoder_targets_one_hot.shape


(2000, 11, 1509)

On remplit maintenant cette matrice vide à partir des données que l'on doit prédire contenues dans la variable output_integer_seq

In [24]:
decoder_output_sequences = pad_sequences(output_integer_seq, maxlen=max_out_len, padding='post')
for i, d in enumerate(decoder_output_sequences):
    for t, word in enumerate(d):
        decoder_targets_one_hot[i, t, word] = 1

In [25]:
decoder_targets_one_hot[0]

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 1., 0., ..., 0., 0., 0.],
       ...,
       [1., 0., 0., ..., 0., 0., 0.],
       [1., 0., 0., ..., 0., 0., 0.],
       [1., 0., 0., ..., 0., 0., 0.]], dtype=float32)

## Encoder 
L'encoder va prendre en entrée les phrases anglaises et va générer un espace latent. On va utiliser pour cela la variable LSTM_NODES

In [26]:
print(LSTM_NODES)

256


Dans Keras il existe une couche que vous avez déjà utilisé : Embedding, nous allons utiliser cette couche en entrée de notre réseau, suivi d'une couche LSTM

In [28]:
encoder_inputs_placeholder = Input(shape=(max_input_len,))
encoder_inputs_placeholder

<tf.Tensor 'input_2:0' shape=(None, 4) dtype=float32>

In [29]:
encoder_inputs_placeholder = Input(shape=(max_input_len,))
x = Embedding(num_words, EMBEDDING_SIZE, 
              weights=[embedding_matrix], 
              input_length=max_input_len)(encoder_inputs_placeholder)
encoder = LSTM(LSTM_NODES, return_state=True)

encoder_outputs, h, c = encoder(x)
encoder_states = [h, c]

## Decoder 

N'hésitez pas à vous faire un schéma pour bien comprendre, le réseau décodeur va avoir plusieurs entrées, d'une part l'espace latent fournis par l'encodeur, d'autre part la prédiction de l'étape précédente

In [30]:
#on utilise une fois de plus la couche Embedding pour utiliser la prédiction précédente
decoder_inputs_placeholder = Input(shape=(max_out_len,))

decoder_embedding = Embedding(num_words_output, LSTM_NODES)
decoder_inputs_x = decoder_embedding(decoder_inputs_placeholder)

decoder_outputs, _, _ = LSTM(LSTM_NODES, return_sequences=True, return_state=True)(decoder_inputs_x, initial_state=encoder_states)

## Fully connected final pour générer la prédiction
On rajoute une couche dense après le décoder

In [31]:
decoder_dense = Dense(num_words_output, activation='softmax')
decoder_outputs = decoder_dense(decoder_outputs)

# Reconstruction

In [32]:
#La syntaxe est un peu différente car notre modèle doit avoir deux entrées, la phrase anglaise pour l'encoder et le token sos pour le decoder
model = Model([encoder_inputs_placeholder,
  decoder_inputs_placeholder], decoder_outputs)

In [33]:

model.compile(
    optimizer='rmsprop',
    loss='categorical_crossentropy',
    metrics=['accuracy']
)

### Affichage du modèle 

In [34]:
model.summary()

Model: "model"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_3 (InputLayer)            [(None, 4)]          0                                            
__________________________________________________________________________________________________
input_4 (InputLayer)            [(None, 11)]         0                                            
__________________________________________________________________________________________________
embedding (Embedding)           (None, 4, 100)       55300       input_3[0][0]                    
__________________________________________________________________________________________________
embedding_1 (Embedding)         (None, 11, 256)      386304      input_4[0][0]                    
______________________________________________________________________________________________

# Entrainement

In [38]:
r = model.fit(
    [encoder_input_sequences, decoder_input_sequences],
    decoder_targets_one_hot,
    batch_size=BATCH_SIZE,
    epochs=EPOCHS,
    validation_split=0.1,
)

  "Converting sparse IndexedSlices to a dense Tensor of unknown shape. "


Train on 1800 samples, validate on 200 samples
Epoch 1/2
Epoch 2/2


# Adaptation du modèle pour la prédiction

Pour la prédiction finale du modèle nous modifions un peu le réseau pour générer notre prédiction. En effet lors de notre entrainement nous envoyons à chaque fois le mot réel -1 dans le décoder, cela n'est pas possible lors d'une prédiction finale puisque nous ne connaissons pas la traduction.

In [39]:
# l'encoder du modèle ne change pas, on l'encapsule juste dans un objet modèle : 

#encoder
encoder_model = Model(encoder_inputs_placeholder, encoder_states)

#decoder
##  espace latent
decoder_state_input_h = Input(shape=(LSTM_NODES,))
decoder_state_input_c = Input(shape=(LSTM_NODES,))
decoder_states_inputs = [decoder_state_input_h, decoder_state_input_c]

#récupération de mot précédemment prédit
decoder_inputs_single = Input(shape=(1,))
decoder_inputs_single_x = decoder_embedding(decoder_inputs_single)

decoder_outputs, h, c = LSTM(LSTM_NODES, return_sequences=True, return_state=True)(decoder_inputs_single_x, initial_state=decoder_states_inputs)

decoder_states = [h, c]
decoder_outputs = decoder_dense(decoder_outputs)

#on encapsule tout le decoder dans un objet modèle
decoder_model = Model(
    [decoder_inputs_single] + decoder_states_inputs,
    [decoder_outputs] + decoder_states
)


# Predictions

In [40]:
idx2word_input = {v:k for k, v in word2idx_inputs.items()}
idx2word_target = {v:k for k, v in word2idx_outputs.items()}

In [41]:
def translate_sentence(input_seq):
    states_value = encoder_model.predict(input_seq)
    target_seq = np.zeros((1, 1))
    target_seq[0, 0] = word2idx_outputs['<sos>']
    eos = word2idx_outputs['<eos>']
    output_sentence = []

    for _ in range(max_out_len):
        output_tokens, h, c = decoder_model.predict([target_seq] + states_value)
        idx = np.argmax(output_tokens[0, 0, :])

        if eos == idx:
            break

        word = ''

        if idx > 0:
            word = idx2word_target[idx]
            output_sentence.append(word)

        target_seq[0, 0] = idx
        states_value = [h, c]

    return ' '.join(output_sentence)

# Test

In [None]:
i = np.random.choice(len(input_sentences))
input_seq = encoder_input_sequences[i:i+1]
translation = translate_sentence(input_seq)
print('-')
print('Input:', input_sentences[i])
print('Response:', translation)

# Pour aller plus loin 
Maintenant que vous avez un premier modèle qui fonctionne vous allez essayer d'augmenter les performances de votre modèle, voici plusieurs pistes :
- Lancez tensorboard et relancer l'entrainement en ajoutant un callback pour suivre l'évolution de votre modèle
- Calculez un BLEU score 
- augmenter la valeur de vos paramètres 
- comparez avec d'autres embeddings comme word2vec, qu'est ce qui fonctionne le mieux ?
- Essayez d'utiliser des embeddings plus grands, 200 ? 300 ?


source du tp : https://stackabuse.com/python-for-nlp-neural-machine-translation-with-seq2seq-in-keras/