Le but de ce TP est de construire un modèle capable d'apprendre à générer des séquences. 
Ici, nous allons nous placer au niveau du caractère: un texte est vu comme une séquence de caractères. Le modèle est un modèle récurrent qui à partir d'un historique prédit le caractère qui suit. Pour simplifier le traitement des données et réduire la compléxité du problème, l'historique sera de taille fixe (*maxlen* dans la suite). 

Les données d'apprentissage se présente comme une séquence de taille *maxlen* (l'entrée) et la sortie est le caractère qui suit. 

Lors de la génération, nous allons donné une séquence de démarrage puis demander au modèle de prédire le caractère suivant. Pour cela, le modèle va calculer la probabilité que chaque caractère soit le suivant puis nous allons échantilloner dans cette distribution. Puis nous passerons au caractère suivant. 



# Chargement des données

In [2]:
import numpy as np
from keras.models import Sequential
from keras.layers import Dense, Activation, Embedding
from keras.layers import LSTM, SimpleRNN
from keras.optimizers import RMSprop, Adam
from keras.utils.data_utils import get_file
import random
import sys

lang='en'
dataset='train'
datad='data/tatoeba/'
trainfile = datad+dataset+'.'+lang+'.gz'



Using Theano backend.


In [3]:
# chargement de tous le texte sous la forme d'une loooongue chaine de caractère
import gzip
fin=gzip.open(trainfile,'rb')
text = fin.read()
fin.close()

print(type(text))

<type 'str'>


# Transformation des données

- construire l'ensemble des caractères présents dans le texte
- construire un dictionnaire associant chaque caractère à un index
- construire un dictionnaire associant chaque index à son caractère


In [20]:
# à vous de jouer
chars = None
char_indices = None
indices_char = None

def count_dif_char(string):
    tmp = []
    for c in string:
        if c not in tmp:
            tmp.append(c)
    return tmp

def create_dict(l):
    tmp = {}
    cpt = 0    
    for e in l:
        tmp[cpt] = e
        cpt+=1
    return tmp

def rev_dict(d):
    tmp = {}
    for word,idt in d.iteritems():
        tmp[idt] = word

    return tmp

chars = count_dif_char(text)
print'total chars: ', len(chars) # on doit trouver 100


indices_char = create_dict(chars)
print(indices_char)

char_indices = rev_dict(indices_char)
print(char_indices)


total chars:  100
{0: 'w', 1: 'h', 2: 'e', 3: 'n', 4: ' ', 5: 'a', 6: 's', 7: 'k', 8: 'd', 9: 'o', 10: 'b', 11: 'r', 12: 't', 13: 'i', 14: ',', 15: 'l', 16: 'y', 17: 'p', 18: 'u', 19: 'f', 20: 'c', 21: '.', 22: '\n', 23: 'I', 24: "'", 25: 'm', 26: 'g', 27: '!', 28: '?', 29: 'J', 30: '1', 31: '8', 32: 'M', 33: '2', 34: '0', 35: '"', 36: 'v', 37: 'j', 38: '\xe2', 39: '\x82', 40: '\xac', 41: '3', 42: 'Y', 43: 'x', 44: 'A', 45: '6', 46: 'T', 47: 'z', 48: 'V', 49: 'W', 50: 'S', 51: 'E', 52: 'F', 53: 'q', 54: 'H', 55: '-', 56: 'R', 57: '9', 58: '5', 59: 'N', 60: 'P', 61: ';', 62: 'B', 63: ':', 64: 'D', 65: 'C', 66: 'G', 67: '4', 68: '%', 69: 'L', 70: 'K', 71: 'U', 72: '7', 73: '\xc2', 74: '\xb0', 75: '\xc3', 76: '\xa9', 77: '(', 78: ')', 79: '$', 80: 'O', 81: '&', 82: 'Q', 83: 'Z', 84: 'X', 85: '/', 86: '\xaf', 87: '#', 88: '\xa8', 89: '[', 90: ']', 91: '\xab', 92: '\xbb', 93: '\xb6', 94: '\x9f', 95: '\xbc', 96: '\xad', 97: '\xb4', 98: '\xa2', 99: '+'}
{'\x9f': 94, ' ': 4, '$': 79, '(': 77, 

Puis nous allons créer deux listes : 
- sentences qui contient les historiques (chaine de caractères de taille *maxlen*)
- next_chars qui contient le caractère chaque historique

Par exemple 
l'historique 'when he as' sera associé à  'k'. 


In [21]:
# cut the text in semi-redundant sequences of maxlen characters
maxlen = 10 # the size of the context
step = 1    # move from step
sentences = []
next_chars = []
# à vous de jouer
"""
    Generaliser ce qui suit:
    sentences.append(text[0:10])
    next_chars.append(text[10])
    print sentences[0]," -> ", next_chars[0]
"""
def build_history(string):
    history = []
    char_next = []
    size = len(text)
    for i in range(size-maxlen-1):        
        sentences.append(text[i:i+maxlen])  
        next_chars.append(text[maxlen+i])

build_history(text)

In [22]:
print('nb sequences:', len(sentences))
for i in range(4):
    print (sentences[i], next_chars[i])



('nb sequences:', 1668883)
('when he as', 'k')
('hen he ask', 'e')
('en he aske', 'd')
('n he asked', ' ')


# Sous-échantillonage des données
Afin de réduire le temps de calcul nous allons prendre qu'une sous partie des données d'apprentissage que nous allons vectoriser

In [23]:
# subsampling
import random
nbSamples=100000
ids = range(nbSamples) 
random.shuffle(ids) # mélange le tout
xsentences = list()
xnext_chars = list()
for i in ids:
    xsentences.append(sentences[i])
    xnext_chars.append(next_chars[i])
print (len(xnext_chars), len(xsentences))

for i in range(4):
    print (xsentences[i], xnext_chars[i])



(100000, 100000)
('vacation t', 'h')
('a doctor t', 'o')
('tarted sai', 'l')
("\nthat's a ", 'g')


# Mettons tout dans des matrices 

Pour l'apprentissage du modèle les données doivent être mis dans des matrices. Pour cela les caractères sont remplacés par les index correspondants. 

** ATTENTION: ** 
- Le modèle Sequential admet des entrées qui ont toutes la même taille, ici c'est le cas par construction, mais sinon il faut faire du padding
- Contrairement au TP précédent, nous allons utiliser un *layer* de type *Embedding* pour l'entrée. Ainsi une séquence de caractère sera une séquence d'index et l'*Embedding* se charge de créer un vecteur par caractère et l'associé via son index. 
- Pour la sortie du modèle, ce n'est plus de la classification binaire. Il y a 99 sorties possibles. Nous allons utiliser une couche de sortie *Softmax* 
- Les données de sorties doivent alors avoir une forme particulière (voir le code ci-dessous).

In [24]:
print('Vectorization...')
X = np.zeros((len(xsentences),maxlen), dtype=np.int32)
y = np.zeros((len(xsentences), len(chars)), dtype=np.bool)
for i, sentence in enumerate(xsentences):
    for  t,char in enumerate(sentence):
        X[i,t] = char_indices[char]
    y[i, char_indices[xnext_chars[i]]] = 1
    
print (X.shape, y.shape)

Vectorization...
((100000, 10), (100000, 100))


# Construction du modèle

Il sera composé : 
- d'une couche Embedding
- un modèle recurrent qui prendra en entrée les embeddings
- puis une sortie softmax
Soit :

In [42]:
"""
Sequantial
    1er  couche --> Embending (size = nbChars*128)
    2eme couche --> SimpleRNN (size = 128)
    3eme couche --> Dense(prends la derniere couche du réseau réccurent qui servira a prédire le caractère suivant
                            size = 128 * |nbChars|)
    4eme couche --> SorftMax
"""

print('Build model...')
model = Sequential()
model.add(Embedding(len(chars),128))
model.add(SimpleRNN(256))
model.add(Dense(len(chars)))
model.add(Activation('softmax'))

optimizer = RMSprop(lr=0.01)
model.compile(loss='categorical_crossentropy', optimizer=optimizer)
print('Model Built !')


Build model...
Model Built !


In [43]:
model.fit(X, y, batch_size=256, nb_epoch=3)
print('Done !')

Epoch 1/3
Epoch 2/3
Epoch 3/3
Done !


# Génération 
Une fois le modèle appris, il faut générer une séquence. Pour cela la fonction suivante est donnée: 

In [47]:
def sample(preds, temperature=1.0):
    # helper function to sample an index from a probability array
    preds = np.asarray(preds).astype('float64')
    preds = np.log(preds) / temperature
    exp_preds = np.exp(preds)
    preds = exp_preds / np.sum(exp_preds)
    probas = np.random.multinomial(1, preds, 1)
    return np.argmax(probas)

In [48]:
start_index = 0#random.randint(0, len(text) - maxlen - 1)

#for diversity in [0.1, 0.2, 0.5, 1.0, 1.2]:
for diversity in [0.1,0.2,1]: 
        print()
        print('----- diversity:', diversity)
        # sentence keeps the last "max_len" chars 
        # init : 
        sentence = text[start_index: start_index + maxlen]
        print('----- Generating with seed: "' + sentence + '"')
        sys.stdout.write(sentence)
        for i in range(200):
            x = np.zeros((1, maxlen), dtype=np.int16)
            # fill x with sentence
            for t, char in enumerate(sentence):
                x[0, t]= char_indices[char]
            preds = model.predict(x, verbose=0)[0]
            next_index = sample(preds, diversity)
            next_char = indices_char[next_index]
            # move the sliding window 
            sentence = sentence[1:] + next_char
            sys.stdout.write(next_char)
            sys.stdout.flush()
        print()

()
('----- diversity:', 0.1)
----- Generating with seed: "when he as"
when he as the cant to my can juco to my can to Cear to my can juco to my can to Cear to my can juco tour to my can juco tour to my can juco tour to my can juco tour to my can ex , I could to my can juco tour t()
()
('----- diversity:', 0.2)
----- Generating with seed: "when he as"
when he as the cour to my can juco tour to my can expeat to my can juct to list to my a the my a lou can just to Cou the cour to my can the cant to the cour tad joun to my can the my are cant to my can juco tou()
()
('----- diversity:', 1)
----- Generating with seed: "when he as"
when he as the frer caskeam tybe myon is dour ene to my jost wle tear wask touble to the reak .
I could to che cant cagll yy hiccly .
I havort have cmelmes werorted to loubjur ?
I clead ste trou a mex he arases()



** à faire ensuite : ** 
- Regarder les différents *optimizers* disponibles.
- Faites varier la taille des embeddings,
- puis la taille de la couche cachée du réseau récurrent
- Le type de réseau récurrent (essayer LSTM  et GRU à la place de SimpleRNN, et regarder les résultats et le temps de calcul).
- Augmenter le nombre d'époque d'apprentissage et regarder au passage comment la fonction objectif évolue. 
- On peut ajouter des données de validations pour voir ce qui se passe également. 
- Augmenter la quantité de données. 
- Pour la génération essayer différents démarrages. 
