# Qassida : un générateur de poésie arabe avec LSTM sous Pytorch


*   A rédiger : Membres de l'équipe
*   Introduction + problématique 
*   Etapes de la réalistion



### Import des librairies :     
Nous commençons par l'import des librairies dont nous aurons besoin pour pouvoir implémenter notre solution
> * NumPy pour la gestion des calculs matriciels et vectoriels
> * PyTorch permet d'effectuer les calculs tensoriels nécessaires notamment pour l'apprentissage profond
> * Beautiful Soup pour le web scraping et la génération du dataset  

In [48]:
import torch
from torch import nn
import torch.nn.functional as func
import numpy as np

### Chargement des données
Initialement nous exécutons un programme de web scraping qui fournit les données sous forme d'un fichier texte, pour effectuer l'entrainement après.

> Nous chargeons d'abord, le résultat du scraping à partir du fichier texte pour le pré-traiter 

In [49]:
# Ouvrir le fichier texte lire les données sous forme de 'texte'

with open('poems_of_Darwish.txt', 'r', encoding="utf-8") as f:
  poem = f.read();

> Visualisons les 50 premiers caractères du texte :

In [50]:
poem[:50]

'علي شاطء البحر بنت  وللبنت اهل\nوللاهل بيت  وللبيت '

### Vectorisation
Dans ce qui suit, nous utilisons les structures 'dictionaries' de python pour convertir les caractères en un entier unique

In [51]:
# Fonction 1 : char_to_int 
# Fonction 2 : int_to_char 

chars = tuple(set(poem))

int_to_char = dict(enumerate(chars))
char_to_int = {char: ii for ii, char in int_to_char.items()}

encoded = np.array([char_to_int[char] for char in poem])

> Visualisons l'encodage des 50 premiers caractères

In [52]:
encoded[:50]

array([57, 59, 14, 55, 51, 36, 50,  4, 55, 36, 59, 38,  9, 13, 55, 38, 30,
       39, 55, 55, 62, 59, 59, 38, 30, 39, 55, 36, 19, 59, 42, 62, 59, 59,
       36, 19, 59, 55, 38, 14, 39, 55, 55, 62, 59, 59, 38, 14, 39, 55])

### Partie pré-traitement des données

Dans le modèle charRNN que nous voulant utiliser, le LSTM prend en entrée des données one-hot-encoded 
i.e un vecteur dont la taille est celle du vocabulaire et pour chaque caractère un '1' est placé à
la position du caractère dans ce vecteur, sinon '0'

In [53]:
def one_hot(vect, taille_vocab):
  one_hot = np.zeros((vect.size, taille_vocab), dtype=np.float32)
    
    # Fill the appropriate elements with ones
  one_hot[np.arange(one_hot.shape[0]), vect.flatten()] = 1.
    
    # Finally reshape it to get back to the original array
  one_hot = one_hot.reshape((*vect.shape, taille_vocab))
    
  return one_hot

### Division en mini-batches d'entrainement

> On divise le vecteur des caractères encodés en séquence de taile seq_length selon le batch_size.


### Créatio des batches
> 1 - D'abord, il faut retrancher certain caractères pour avoir des batches de taille complète uniquement.
> 2 - Diviser le vecteur de caractères en N batches.
> 3 - Parcourir le vecteur qui est maintenant divisé en N sous-vecteurs pour avoir les mini-batches. 

### Entrainer et tester les Batched
> 1 - Créer 2 batches x,y où : x est le input batch et y est le training batch qui est exactement x mais décalé d'un seul caractère.

In [54]:
def get_batches(arr, batch_size, seq_length):

    batch_size_total = batch_size * seq_length

    # Nombre total de batches que nous pouvons avoir
    n_batches = len(arr)//batch_size_total
    
    # Garder que les batches complets 
    arr = arr[:n_batches * batch_size_total]

    # Reshape en lignes de batch_size 
    arr = arr.reshape((batch_size, -1))
    
    # Itérer sur chaque séquence de caractères
    for n in range(0, arr.shape[1], seq_length):

        x = arr[:, n:n+seq_length]
        
        y = np.zeros_like(x)
        try:
            y[:, :-1], y[:, -1] = x[:, 1:], arr[:, n+seq_length]
        except IndexError:
            y[:, :-1], y[:, -1] = x[:, 1:], arr[:, 0]
        yield x, y

### Visualiser la sortie 
> Visualisons ce que les batches sur 100 caractères de données encodées donne :

In [55]:
batches = get_batches(encoded, 8, 50)
x, y = next(batches)

# Les 10 premiers éléments d'une séquence
print('x\n', x[:10, :10])
print('\ny\n', y[:10, :10])

x
 [[57 59 14 55 51 36 50  4 55 36]
 [36 55 36 59  1 36 19 13 14 30]
 [23 55 36 59 62 28 39 55 12 14]
 [42 62  1 13 30 36 55 36 59 14]
 [55 48 30 55 36 59 13 62  9 55]
 [62 55 59 63 19 42 36 59 48 55]
 [36 55 48 36  4 19 36 55 14 13]
 [30 62 36 57 55 36 59  9 43 36]]

y
 [[59 14 55 51 36 50  4 55 36 59]
 [55 36 59  1 36 19 13 14 30 55]
 [55 36 59 62 28 39 55 12 14 55]
 [62  1 13 30 36 55 36 59 14 55]
 [48 30 55 36 59 13 62  9 55 62]
 [55 59 63 19 42 36 59 48 55 39]
 [55 48 36  4 19 36 55 14 13 62]
 [62 36 57 55 36 59  9 43 36 13]]


### Définir le modèle avec PyTorch
> On commence d'abord par définir les couches (layers) du modèle ensuite les fonctions (opérations), après on doit aussi écrire le code pour les opérations : forward (passer un caractère)


> __Remarque__ : on essaye d'utiliser les GPUs disponibles sinon, sélectionner le CPU

In [56]:
# check if GPU is available
train_on_gpu = torch.cuda.is_available()
if(train_on_gpu):
    print('L\'entrainement se fera sur GPU')
else: 
    print('Aucun GPU trouvé ')

Aucun GPU trouvé 


In [57]:
class CharRNN(nn.Module):
    
    def __init__(self, tokens, n_hidden=256, n_layers=2,
                               drop_prob=0.5, lr=0.001):
        super().__init__()
        self.drop_prob = drop_prob
        self.n_layers = n_layers
        self.n_hidden = n_hidden
        self.lr = lr
        
        # Dictionnaires des caractères 
        self.chars = tokens
        self.int_to_char = dict(enumerate(self.chars))
        self.char_to_int = {ch: ii for ii, ch in self.int_to_char.items()}
        
        ## Définir le LSTM 
        self.lstm = nn.LSTM(len(self.chars), n_hidden, n_layers, 
                            dropout=drop_prob, batch_first=True)
        
        ## Définir la couche de dropout
        self.dropout = nn.Dropout(drop_prob)
        
        ## Définir la couche de sortie
        self.fc = nn.Linear(n_hidden, len(self.chars))
      
    
    def forward(self, x, hidden):
                
        ## Recevoir la sortie et le nouvel état 'hidden' depuis le LSTM
        r_output, hidden = self.lstm(x, hidden)
        
        ## Passer par une couche de dropout
        out = self.dropout(r_output)
        
        # Empiler (stacking) les sorties des LSTM 
        # Ici contiguous() c'est pour faire le reshape du vecteur 
        out = out.contiguous().view(-1, self.n_hidden)
        
        ## Faire passer x dans la couche entièrement connecté
        out = self.fc(out)
        
        # Retourner la sortie finale et le hidden state final
        return out, hidden
    
    
    def init_hidden(self, batch_size):
        ''' Initialiser le hidden state '''
        # Créations de 2 tensors de dimensions n_layers x batch_size x n_hidden,
        # initialiser à 0 pour le hidden state et cell state (cellule état) du LSTM
        weight = next(self.parameters()).data
        
        if (train_on_gpu):
            hidden = (weight.new(self.n_layers, batch_size, self.n_hidden).zero_().cuda(),
                  weight.new(self.n_layers, batch_size, self.n_hidden).zero_().cuda())
        else:
            hidden = (weight.new(self.n_layers, batch_size, self.n_hidden).zero_(),
                      weight.new(self.n_layers, batch_size, self.n_hidden).zero_())
        
        return hidden

In [58]:
def train(net, data, epochs=5, batch_size=10, seq_length=50, lr=0.001, clip=5, val_frac=0.1, print_every=10):
    ''' Entrainer le modèle
    
        Arguments
        ---------
        
        net: Le réseau charRNN
        data: Texte du dataset 
        epochs: Nombre d'epochs pour entrainer 
        batch_size: Nombre de mini-séquences par mini-batch (taille du batch)

        seq_length: Nombre de caractères par mini-batch
        lr: learning rate (taux d'apprentissage)
        clip: gradient clipping
        val_frac: Fraction de données à garder pour l'étape de validation
        print_every: Nombre d'étapes à compter jusqu'au prochain affichage du loss
    
    '''
    train_loss = 0.0
    valid_loss = 0.0
    valid_loss_min = np.Inf 


    net.train()
    
    opt = torch.optim.Adam(net.parameters(), lr=lr)
    criterion = nn.CrossEntropyLoss()
    
    # Création des données de less et de validation
    val_idx = int(len(data)*(1-val_frac))
    data, val_data = data[:val_idx], data[val_idx:]
    
    if(train_on_gpu):
        net.cuda()
    
    counter = 0
    n_chars = len(net.chars)
    for e in range(epochs):
        # initialiser l'état hidden 
        h = net.init_hidden(batch_size)
        
        for x, y in get_batches(data, batch_size, seq_length):
            counter += 1
            
            x = one_hot(x, n_chars)
            inputs, targets = torch.from_numpy(x), torch.from_numpy(y)
            
            if(train_on_gpu):
                inputs, targets = inputs.cuda(), targets.cuda()

            h = tuple([each.data for each in h])

            # initialiser les gradients cumulés 
            net.zero_grad()
            
            # Recevoir la sortie 
            output, h = net(inputs, h)
            
            # Calculer la perte (loss) et effectuer une backpropagation
            loss = train_loss = criterion(output, targets.view(batch_size*seq_length).long())
            loss.backward()
            # `clip_grad_norm` permet de controler l'explosion du gradient dans RNNs / LSTMs.
            nn.utils.clip_grad_norm_(net.parameters(), clip)
            opt.step()
            
            # statistiques du loss
            if counter % print_every == 0:
                
                val_h = net.init_hidden(batch_size)
                val_losses = []
                net.eval()
                for x, y in get_batches(val_data, batch_size, seq_length):
                    
                    x = one_hot(x, n_chars)
                    x, y = torch.from_numpy(x), torch.from_numpy(y)
                    
                    
                    val_h = tuple([each.data for each in val_h])
                    
                    inputs, targets = x, y
                    if(train_on_gpu):
                        inputs, targets = inputs.cuda(), targets.cuda()

                    output, val_h = net(inputs, val_h)
                    val_loss = valid_loss =  criterion(output, targets.view(batch_size*seq_length).long())
                
                    val_losses.append(val_loss.item())
                
                net.train() # Remettre en état d'entrainement après la phase de validation
                
                print("Epoch: {}/{}...".format(e+1, epochs),
                      "Etape: {}...".format(counter),
                      "Loss: {:.4f}...".format(loss.item()),
                      "Val Loss: {:.4f}".format(np.mean(val_losses)))
                
    # Sauvegarder le modèle si la valeur de loss (perte) diminue
    if valid_loss <= valid_loss_min:
        print('validation loss a diminué({:.6f} --> {:.6f}).  Sauvegarde du modèle ...'.format(
        valid_loss_min,
        valid_loss))
        model_name = 'Darwish_model.net'

        checkpoint = {'n_hidden': net.n_hidden,
                       'n_layers': net.n_layers,
                       'state_dict': net.state_dict(),
                       'tokens': net.chars}

        with open(model_name, 'wb') as f:
            torch.save(model_name, f)

### Entrainement
> __Remarque :__ L'entrainement sur Google Colab avec 50 epoch prend 4 heurs.

In [59]:
# Définir le network (réseau)
n_hidden=512
n_layers=5

net = CharRNN(chars, n_hidden, n_layers)
print(net)

CharRNN(
  (lstm): LSTM(67, 512, num_layers=5, batch_first=True, dropout=0.5)
  (dropout): Dropout(p=0.5, inplace=False)
  (fc): Linear(in_features=512, out_features=67, bias=True)
)


In [None]:
batch_size = 128
seq_length = 100
n_epochs = 1

# Entrainer le modèle 
train(net, encoded, epochs=n_epochs, batch_size=batch_size, seq_length=seq_length, lr=0.001, print_every=10)

Epoch: 1/1... Etape: 10... Loss: 2.9922... Val Loss: 2.9651
Epoch: 1/1... Etape: 20... Loss: 2.9748... Val Loss: 2.9587
Epoch: 1/1... Etape: 30... Loss: 2.9592... Val Loss: 2.9568


In [None]:
with open('Darwish_model.net', 'rb') as f:
    if train_on_gpu:
            checkpoint = torch.load(f)
    else:        
        checkpoint = torch.load(f,map_location=torch.device('cpu'))

    
loaded = CharRNN(checkpoint['tokens'], n_hidden=checkpoint['n_hidden'], n_layers=checkpoint['n_layers'])
loaded.load_state_dict(checkpoint['state_dict'])

In [None]:
def predict(net, char, h=None, top_k=None):
        
        x = np.array([[net.char_to_int[char]]])
        x = one_hot(x, len(net.chars))
        inputs = torch.from_numpy(x)
        
        if(train_on_gpu):
            inputs = inputs.cuda()
        
        h = tuple([each.data for each in h])
        
        out, h = net(inputs, h)

        # Calculer les probabilités du prochain caractère
        p = F.softmax(out, dim=1).data
        if(train_on_gpu):
            p = p.cpu() # passer au cpu
        
        # Garder les caractères avec les plus grandes probabiités
        if top_k is None:
            top_ch = np.arange(len(net.chars))
        else:
            p, top_ch = p.topk(top_k)
            top_ch = top_ch.numpy().squeeze()
        
        # Choisir le prochain caractère à l'aide d'une fonction aléatoire
        p = p.numpy().squeeze()
        char = np.random.choice(top_ch, p=p/p.sum())
        
        # Retourner le code du caractère et le convertir en caractère  
        return net.int_to_char[char], h

In [None]:
def sample(net, size, prime='The', top_k=None):
        
    if(train_on_gpu):
        net.cuda()
    else:
        net.cpu()
    
    net.eval() # mode d'évaluation
    
    # D'abord, traiter le premier 
    chars = [ch for ch in prime]
    h = net.init_hidden(1)
    for ch in prime:
        char, h = predict(net, ch, h, top_k=top_k)

    chars.append(char)
    
    # Passer le caractère précédent pour avoir le prochaine
    for ii in range(size):
        char, h = predict(net, chars[-1], h, top_k=top_k)
        chars.append(char)

    return ''.join(chars)

In [None]:
print(sample(loaded, 300, prime='السيف', top_k=5))