# Exo2: Generation de séquences

<h3>Binome:</h3>
<ul>
    <li><h4>ALLOUACHE Yacine</h4></li>
    <li><h4>ELMAM Kenza</h4></li>
</ul>

<p>Ce notebook sert uniquement à présenter nos résultats, et les bouts de code intéressants dans le cadre de ce rapport. L'intégralité du code est contenu dans les fichiers .py.</p>

# But

<ul>
    <li><h5>Implémenter un RNN en pytorch from scratch</h5></li>
    <li><h5>Réaliser une classification de séquence</h5></li>    
    <li><h5>Réaliser une tâche de forecasting (prédiction de caracètre)</h5></li>
</ul>

# Données

<ul>
    <li><h4>tempAMAL</h4> <p> Un jeu de relevés de température à travers 31 villes des Etats Unis et du Canada, qui pourra servir à de la classification de séquence (many to one), par exemple pour prédire une ville sachant une séquence de température, ou à du forecasting, en préduisant la température à ${t+1}$.</p></li>
        <li><h4>trump_full_speech</h4> <p> C'est le speech de Trump, le président americain, c'est un jeu de données textuelle, qui pourra servir essentiellement pour la generation de sequence</p></li>
</ul>

In [1]:
import sys
import argparse
import os 
from datetime import datetime

import string
import unicodedata
import unidecode
import re

sys.path.append('./src')

In [2]:
from exo4 import *

In [3]:
%%sh
ls ./data

city_attributes.csv
shakespeare.txt
tempAMAL_test.csv
tempAMAL_train.csv
trump_full_speech.txt


In [4]:
checkpoint_dir = f"{'./experiments'}/exo4"     
os.makedirs(checkpoint_dir, exist_ok=True)

log_dir = f"{'./checkpoints'}/exo4"
os.makedirs(checkpoint_dir, exist_ok=True)

checkpoint_path = f'{checkpoint_dir}/checkpoint_' + datetime.now().strftime('%d_%m_%Y_%H:%M:%S')

In [5]:
data_path = "./data/trump_full_speech.txt" 
BATCH_SIZE= 16
LATENT_SIZE = 10
LR = 1e-3
N_EPOCHS = 10
with open(f'{data_path}') as f:
    text = f.read()
text = text #[0]+text[1]+text[2]+text[3]
text = unidecode.unidecode(text)
text = unicodedata.normalize('NFD', text)
text = text.lower()
text = text.translate(str.maketrans("","", re.sub('[\.|,|;]', '', string.punctuation)))
text = text.strip()
LETTRES = set(text)
id2lettre = dict(zip(range(1,len(LETTRES)+1),LETTRES))
lettre2id = dict(zip(id2lettre.values(),id2lettre.keys()))
X = string2code(text, lettre2id).astype(np.float32)
N_LETTRES = len(LETTRES)+1

In [6]:

train_datset_diff = TextDataset(X)
trainloader_diff = torch.utils.data.DataLoader(train_datset_diff, batch_size=BATCH_SIZE, shuffle=True, collate_fn=func(train_datset_diff))
model = Rnn_Generator(input_size=1, latent_size=LATENT_SIZE, output=N_LETTRES).to(device)
criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(),lr=LR)

In [7]:
l = train(
        train=trainloader_diff, 
        model=model, 
        criterion=criterion, 
        optimizer=optimizer, 
        n_lettres=N_LETTRES, 
        n_epochs=N_EPOCHS, 
        log_dir=log_dir, 
        checkpoint_path=checkpoint_path
    )

Train: Loss: 3.6222: 100%|██████████| 10/10 [1:47:07<00:00, 642.80s/it]


In [78]:
def generate_sequence(model, start, n_lettres, length, temperature, lettre2id, id2lettre):
    with torch.no_grad():
        start = torch.from_numpy(np.array([lettre2id[start]]).astype(np.float32))
        h = model.initHidden()
        l = []
        for _ in range(length):
            h = model.one_step(start, h)
            out = model.decode(h.unsqueeze(0))
            
            #
            output_dist = out.data.view(-1).div(temperature).exp()
            nex = torch.multinomial(output_dist, 1)[0]
            #
            
            # nex =  np.random.choice(np.arange(n_lettres), p=torch.flatten(out).numpy())

            start = nex.view(-1,1).float() #torch.from_numpy(np.array([nex]).astype(np.float32))
            print(nex)
            l.append(id2lettre[nex.item()+1])
        return "".join(l)
    


In [79]:
print(generate_sequence(model, "p", N_LETTRES, 100, .7, lettre2id, id2lettre))

tensor(35)
tensor(8)
tensor(25)
tensor(33)
tensor(4)
tensor(34)
tensor(39)
tensor(25)
tensor(38)
tensor(29)
tensor(41)
tensor(40)
tensor(29)
tensor(30)
tensor(40)
tensor(5)
tensor(17)
tensor(25)
tensor(9)
tensor(5)
tensor(35)
tensor(10)
tensor(31)
tensor(4)
tensor(9)
tensor(8)
tensor(14)
tensor(23)
tensor(24)
tensor(31)
tensor(13)
tensor(32)
tensor(35)
tensor(25)
tensor(16)
tensor(5)
tensor(7)
tensor(24)
tensor(9)
tensor(31)
tensor(8)
tensor(37)
tensor(25)
tensor(23)
tensor(31)
tensor(8)
tensor(19)
tensor(8)
tensor(5)
tensor(35)
tensor(3)
tensor(17)
tensor(25)
tensor(2)
tensor(17)
tensor(6)
tensor(11)
tensor(24)
tensor(19)
tensor(22)
tensor(38)
tensor(22)
tensor(3)
tensor(29)
tensor(27)
tensor(3)
tensor(8)
tensor(29)
tensor(39)
tensor(41)
tensor(41)
tensor(17)
tensor(42)
tensor(37)
tensor(5)
tensor(11)
tensor(5)
tensor(17)
tensor(12)
tensor(36)
tensor(5)
tensor(9)
tensor(20)
tensor(26)
tensor(11)
tensor(27)
tensor(19)
tensor(2)
tensor(3)
tensor(20)
tensor(21)
tensor(34)
tensor(26)
tens

KeyError: 0