In [1]:
import os
import sys
sys.path.append('..')

In [26]:
import import_ipynb
from utils.dataset_loader import CreateDataset
from utils.training import Learning

importing Jupyter notebook from ..\utils\training.ipynb


In [27]:
import torch
from torch import nn
from torch import optim

import random
import numpy as np

from tqdm import tqdm

In [28]:
### cpu, gpu 선택
device = 'cuda' if torch.cuda.is_available() else 'cpu'

### 불용어 사용 여부
use_stopword = True

### batch_size
batch_size = 32

In [29]:
### 미리 만들어둔 데이터셋을 가져옴
dataset = CreateDataset(device=device, use_stopword=use_stopword)

### 데이터셋에서 iterator만 뽑아냄
train_iterator, valid_iterator, test_iterator = dataset.get_iterator(batch_size=batch_size)

In [30]:
class Encoder(nn.Module):
    def __init__(self, input_dim, emb_dim, hid_dim, n_layers, dropout):
        super().__init__()
        self.embedding = nn.Embedding(input_dim, emb_dim)
        self.rnn = nn.GRU(emb_dim, hid_dim, num_layers=n_layers, dropout=dropout)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, x):
        embedded = self.dropout(self.embedding(x))
        output, hidden = self.rnn(embedded)
        return hidden

In [72]:
class Decoder(nn.Module):
    def __init__(self, output_dim, emb_dim, hid_dim, n_layers, dropout):
        super().__init__()
        self.output_dim = output_dim
        self.embedding = nn.Embedding(output_dim, emb_dim)
        self.rnn = nn.GRU(emb_dim+hid_dim, hid_dim, num_layers=n_layers, dropout=dropout)
        self.dropout = nn.Dropout(dropout)
        self.fc_out = nn.Linear(hid_dim*2+emb_dim, output_dim)
        
    def forward(self, x, hidden_state):
        # x = [batch_size]
        x = x.unsqueeze(0)
        # x = [trg_len, batch_size]
        
        embedded = self.dropout(self.embedding(x))
        # embedded [trg_len, batch_size, emb_dim]
        
        rnn_input = torch.cat([embedded, hidden_state], dim=2)
        
        outputs, hidden = self.rnn(rnn_input, hidden_state)
        
        fc_input = torch.cat([embedded.squeeze(0), outputs.squeeze(0), hidden_state.squeeze(0)], dim=1)
        
        outputs = self.fc_out(fc_input).squeeze(0)
        
        return outputs, hidden

In [73]:
class Seq2Seq(nn.Module):
    def __init__(self, enc, dec, device):
        super().__init__()
        self.enc = enc
        self.dec = dec
        self.device = device
        self.output_dim = dec.output_dim
        
    def forward(self, src, trg, teacher_forcing_ratio=0.5):
        hidden_state = self.enc(src)
        
        trg_len = trg.shape[0]
        batch_size = trg.shape[1]
        output_dim = self.output_dim
        
        outputs = torch.zeros(trg_len, batch_size, output_dim).to(self.device)
        
        dec_input = trg[0]
        
        for i in range(1, trg_len):
            output, hidden_state = self.dec(dec_input, hidden_state)
            
            outputs[i] = output
            
            top1 = torch.argmax(output, dim=1)
            
            dec_input = top1 if random.random() > teacher_forcing_ratio else trg[i]
        
        return outputs

In [74]:
input_dim = len(dataset.SRC.vocab)
output_dim = len(dataset.TRG.vocab)
emb_dim = 256
hid_dim = 512
n_layers = 1
dropout = 0.1
clip = 1

In [75]:
enc = Encoder(input_dim, emb_dim, hid_dim, n_layers, dropout).to(device)
dec = Decoder(output_dim, emb_dim, hid_dim, n_layers, dropout).to(device)
model = Seq2Seq(enc, dec, device).to(device)
epochs = 10

In [76]:
pad_index = dataset.TRG.vocab.stoi[dataset.TRG.pad_token]

criterion = nn.CrossEntropyLoss(ignore_index=pad_index)
optimizer = optim.Adam(model.parameters(), lr=0.0001)

In [77]:
model

Seq2Seq(
  (enc): Encoder(
    (embedding): Embedding(7854, 256)
    (rnn): GRU(256, 512, dropout=0.1)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (dec): Decoder(
    (embedding): Embedding(5893, 256)
    (rnn): GRU(768, 512, dropout=0.1)
    (dropout): Dropout(p=0.1, inplace=False)
    (fc_out): Linear(in_features=1280, out_features=5893, bias=True)
  )
)

In [78]:
def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)

print(f'The model has {count_parameters(model):,} trainable parameters')

The model has 14,220,037 trainable parameters


In [79]:
learn = Learning()

for epoch in range(epochs):
    model, train_loss = learn.train(model, criterion, optimizer, train_iterator, clip)
    eval_loss = learn.evaluation(model, criterion, valid_iterator)
    print(train_loss, eval_loss)

100%|████████████████████████████████████████████████████████████████████████████████| 907/907 [00:59<00:00, 15.32it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 47.34it/s]
  0%|▏                                                                                 | 2/907 [00:00<01:07, 13.33it/s]

4.856477131785737 4.90569207072258


100%|████████████████████████████████████████████████████████████████████████████████| 907/907 [00:58<00:00, 15.57it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 48.19it/s]
  0%|                                                                                  | 1/907 [00:00<01:37,  9.26it/s]

4.333748499902896 4.601190030574799


100%|████████████████████████████████████████████████████████████████████████████████| 907/907 [00:58<00:00, 15.61it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 47.06it/s]
  0%|                                                                                  | 1/907 [00:00<01:39,  9.09it/s]

4.039949203667856 4.374488085508347


100%|████████████████████████████████████████████████████████████████████████████████| 907/907 [00:58<00:00, 15.50it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 46.44it/s]
  0%|                                                                                  | 1/907 [00:00<01:32,  9.80it/s]

3.7897001414209637 4.231442108750343


100%|████████████████████████████████████████████████████████████████████████████████| 907/907 [00:58<00:00, 15.62it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 47.13it/s]
  0%|▏                                                                                 | 2/907 [00:00<01:10, 12.82it/s]

3.596417028559608 4.126731850206852


100%|████████████████████████████████████████████████████████████████████████████████| 907/907 [01:01<00:00, 14.73it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 46.65it/s]
  0%|                                                                                  | 1/907 [00:00<01:32,  9.80it/s]

3.4416154960813174 4.029793135821819


100%|████████████████████████████████████████████████████████████████████████████████| 907/907 [01:00<00:00, 14.87it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 47.41it/s]
  0%|                                                                                  | 1/907 [00:00<01:36,  9.35it/s]

3.3080991852244046 3.9348394870758057


100%|████████████████████████████████████████████████████████████████████████████████| 907/907 [01:01<00:00, 14.80it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 48.12it/s]
  0%|▏                                                                                 | 2/907 [00:00<01:18, 11.49it/s]

3.1910925434600426 3.8901222348213196


100%|████████████████████████████████████████████████████████████████████████████████| 907/907 [01:01<00:00, 14.75it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 47.55it/s]
  0%|                                                                                  | 1/907 [00:00<01:55,  7.87it/s]

3.080190641745974 3.855545222759247


100%|████████████████████████████████████████████████████████████████████████████████| 907/907 [01:01<00:00, 14.66it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 45.78it/s]

2.9928354969886857 3.8030700013041496



