In [2]:
# -*- coding: utf-8 -*-
"""
Réseau de neurones récurrent, modèle de langue par mot, pour paroles de chansons
Version avec couche vectorisation de mots et RNN 
"""

import torch
torch.manual_seed(0) # Pour résultats reproductibles
from torch import nn
import pandas as pd
from collections import Counter

class DatasetParoles(torch.utils.data.Dataset):
    """ Créer un Dataset avec les paroles de la colonne Lyric du fichier 
    https://www.kaggle.com/neisse/scrapped-lyrics-from-6-genres?select=lyrics-data.csv
    taille_sequence : taille d'une séquence de mots pour le modèle de langue
    Le texte est découpé en séquences de la taille taille_sequence
    """
    def __init__(self,taille_sequence=4):
        self.taille_sequence = taille_sequence
        self.mots = self.charger_mots()
        self.mots_uniques = self.chercher_mots_uniques()

        self.index_a_mot = {index: mot for index, mot in enumerate(self.mots_uniques)}
        self.mot_a_index = {mot: index for index, mot in enumerate(self.mots_uniques)}

        self.mots_indexes = [self.mot_a_index[w] for w in self.mots]

    def charger_mots(self):
        dataframe_entrainement = pd.read_csv('lyrics-data.csv')
        texte_concatene = dataframe_entrainement.iloc[0:100]['Lyric'].str.cat(sep=' ')
        return texte_concatene.split(' ')

    def chercher_mots_uniques(self):
        frequence_mot = Counter(self.mots)
        return sorted(frequence_mot, key=frequence_mot.get, reverse=True)

    def __len__(self):
        return len(self.mots_indexes) - self.taille_sequence

    def __getitem__(self, index):
        return (
            torch.tensor(self.mots_indexes[index:index+self.taille_sequence]),
            torch.tensor(self.mots_indexes[index+1:index+self.taille_sequence+1]),
        )


In [3]:
ds_paroles = DatasetParoles(taille_sequence=6)
print(ds_paroles[0])

(tensor([  3,  43, 156,  37,   0, 282]), tensor([ 43, 156,  37,   0, 282, 169]))


In [5]:
class Modele(nn.Module):
    """Modèle de RNR avec une couche vectorisation, suivie d'une couche RNN et d'une couche linéaire"""
    def __init__(self, ds_paroles):
        super(Modele, self).__init__()
        self.taille_H_RNN = 128
        self.taille_vectorisation_mots = 64
        self.nombre_couches_RNR = 1

        taille_vocabulaire = len(ds_paroles.mots_uniques)
        self.vectorisation_mots = nn.Embedding(num_embeddings=taille_vocabulaire,
            embedding_dim=self.taille_vectorisation_mots)
        self.rnn = nn.RNN(input_size=self.taille_vectorisation_mots,hidden_size=self.taille_H_RNN,
            num_layers=self.nombre_couches_RNR,batch_first=True)
        self.fc = nn.Linear(self.taille_H_RNN, taille_vocabulaire)

    def forward(self, lot_X, etat_0):
        vectorisation = self.vectorisation_mots(lot_X)
        lot_Ht, etat = self.rnn(vectorisation, etat_0)
        lot_Yt = self.fc(lot_Ht)

        return lot_Yt, etat

    def initializer_etat(self, taille_sequence):
        return (torch.zeros(self.nombre_couches_RNR, taille_sequence, self.taille_H_RNN))
    
import torch
import numpy as np
from torch import nn, optim
from torch.utils.data import DataLoader

def entrainer_RNR(ds_paroles, modele, taille_lot=32, epochs=10, taille_sequence=6):
    modele.train()
    dl_paroles = DataLoader(ds_paroles,batch_size=taille_lot)

    fonction_cout = nn.CrossEntropyLoss()
    optimizeur = optim.Adam(modele.parameters(), lr=0.001)

    for epoch in range(epochs):

        for lot, (lot_X, lot_Y) in enumerate(dl_paroles):

            optimizeur.zero_grad()
            etat = modele.initializer_etat(lot_X.shape[0])
            lot_Y_predictions, etat = modele(lot_X, etat)
            cout = fonction_cout(lot_Y_predictions.transpose(1, 2), lot_Y)
            
            cout.backward()
            optimizeur.step()
            if lot%10 == 0:
                print(f'-------- > epoch {epoch} lot {lot} :  coût = {cout.item()}')

def predire(ds, modele, debut_texte, nb_mots=20):
    """ Prédire une suite de nb_mots à partir de debut_texte selon le modele"""
    mots = debut_texte.split(' ')
    modele.eval()
    etat = modele.initializer_etat(1)

    for i in range(0, nb_mots):
        lot_X = torch.tensor([[ds.mot_a_index[m] for m in mots[i:]]])
        lot_Y_predictions, etat = modele(lot_X, etat)
        dernier_mot_Yt = lot_Y_predictions[0][-1]
        probs_dernier_mot = torch.nn.functional.softmax(dernier_mot_Yt, dim=0).detach().numpy()
        index_mot_choisi = np.random.choice(len(dernier_mot_Yt), p=probs_dernier_mot)
        mots.append(ds.index_a_mot[index_mot_choisi])

    return mots

ds_paroles = DatasetParoles(taille_sequence=6)
modele = Modele(ds_paroles)

entrainer_RNR(ds_paroles, modele, taille_lot=32, epochs=5, taille_sequence=6)
print(predire(ds_paroles, modele, debut_texte='There was'))

-------- > epoch 0 lot 0 :  coût = 8.489644050598145
-------- > epoch 0 lot 10 :  coût = 8.423213005065918
-------- > epoch 0 lot 20 :  coût = 8.408082008361816
-------- > epoch 0 lot 30 :  coût = 8.411518096923828
-------- > epoch 0 lot 40 :  coût = 7.9149489402771
-------- > epoch 0 lot 50 :  coût = 8.080327987670898
-------- > epoch 0 lot 60 :  coût = 7.669843673706055
-------- > epoch 0 lot 70 :  coût = 8.028130531311035
-------- > epoch 0 lot 80 :  coût = 7.785158157348633
-------- > epoch 0 lot 90 :  coût = 7.522314071655273
-------- > epoch 0 lot 100 :  coût = 7.744295597076416
-------- > epoch 0 lot 110 :  coût = 8.019047737121582
-------- > epoch 0 lot 120 :  coût = 7.292102336883545
-------- > epoch 0 lot 130 :  coût = 7.188777446746826
-------- > epoch 0 lot 140 :  coût = 7.6538615226745605
-------- > epoch 0 lot 150 :  coût = 6.343895435333252
-------- > epoch 0 lot 160 :  coût = 5.909187316894531
-------- > epoch 0 lot 170 :  coût = 7.885389804840088
-------- > epoch 0 lot

-------- > epoch 2 lot 280 :  coût = 6.32283353805542
-------- > epoch 2 lot 290 :  coût = 4.165081977844238
-------- > epoch 2 lot 300 :  coût = 5.5868916511535645
-------- > epoch 2 lot 310 :  coût = 5.518992900848389
-------- > epoch 2 lot 320 :  coût = 4.884909152984619
-------- > epoch 2 lot 330 :  coût = 5.6049933433532715
-------- > epoch 2 lot 340 :  coût = 4.446051120758057
-------- > epoch 2 lot 350 :  coût = 5.6651611328125
-------- > epoch 2 lot 360 :  coût = 6.02758264541626
-------- > epoch 2 lot 370 :  coût = 4.266327857971191
-------- > epoch 2 lot 380 :  coût = 5.72990608215332
-------- > epoch 2 lot 390 :  coût = 3.942864179611206
-------- > epoch 2 lot 400 :  coût = 5.276919841766357
-------- > epoch 2 lot 410 :  coût = 4.4264960289001465
-------- > epoch 2 lot 420 :  coût = 3.476564407348633
-------- > epoch 2 lot 430 :  coût = 5.043787479400635
-------- > epoch 2 lot 440 :  coût = 4.602592945098877
-------- > epoch 2 lot 450 :  coût = 5.948624134063721
-------- > e

-------- > epoch 4 lot 550 :  coût = 4.4936137199401855
-------- > epoch 4 lot 560 :  coût = 4.280963897705078
-------- > epoch 4 lot 570 :  coût = 4.701884746551514
-------- > epoch 4 lot 580 :  coût = 2.8533449172973633
-------- > epoch 4 lot 590 :  coût = 3.3511927127838135
-------- > epoch 4 lot 600 :  coût = 1.8173633813858032
['There', 'was', 'no', 'way', 'of', 'knowing.', 'Like', 'grow', 'for', 'More', 'Roll', 'came', 'alone', 'a', 'child', 'was', 'falling,', 'glory', "Don't", 'And', 'I', 'cry,.']
