In [1]:
!git clone https://github.com/sunandhini96/TSAI_ERAV1.git

Cloning into 'TSAI_ERAV1'...
remote: Enumerating objects: 340, done.[K
remote: Counting objects: 100% (160/160), done.[K
remote: Compressing objects: 100% (89/89), done.[K
remote: Total 340 (delta 76), reused 147 (delta 67), pack-reused 180[K
Receiving objects: 100% (340/340), 13.88 MiB | 23.34 MiB/s, done.
Resolving deltas: 100% (121/121), done.


In [2]:
cd /kaggle/working/TSAI_ERAV1/Session_15

/kaggle/working/TSAI_ERAV1/Session_15


In [3]:
!pip install -r requirements.txt




In [4]:
!python model.py

In [5]:
!python config.py

In [6]:
import config
import dataset
import utils
import dataloader



In [7]:
import torch
import torch.nn as nn
from pytorch_lightning import LightningModule
from torch.optim.lr_scheduler import LambdaLR
import torchmetrics
from torchmetrics import BLEUScore, CharErrorRate, WordErrorRate

from model import build_transformer
from utils import causal_mask
import pytorch_lightning as pl
from config import get_config
from dataloader import OpusDataSetModule
config = get_config()



class BilingualModel(LightningModule):
    def __init__(self, learning_rate, tokenizer_src, tokenizer_tgt, config=config):

        super().__init__()

        self.learning_rate = learning_rate
        self.tokenizer_src = tokenizer_src
        self.tokenizer_tgt = tokenizer_tgt

        self.seq_len = config["seq_len"]

        self.src_vocab_size = tokenizer_src.get_vocab_size()
        self.tgt_vocab_size = tokenizer_tgt.get_vocab_size()

        # self.src_vocab_size = 15698
        # self.tgt_vocab_size = 22463

        self.last_batch = None

        self.network = build_transformer(
            self.src_vocab_size,
            self.tgt_vocab_size,
            self.seq_len,
            self.seq_len,
            d_model=config["d_model"],
        )

        self.loss_fn = nn.CrossEntropyLoss(
            ignore_index=self.tokenizer_src.token_to_id("[PAD]"), label_smoothing=0.1
        )

        self.epoch_condition = 0

        self.train_loss = []
        self.val_loss = []

        self.source_texts = []
        self.expected = []
        self.predicted = []

        self.char_error_rate = CharErrorRate()
        self.word_error_rate = WordErrorRate()
        self.bleu_score = BLEUScore()

    def forward(self, encoder_input, decoder_input, encoder_mask, decoder_mask):
        encoder_output = self.network.encode(
            encoder_input, encoder_mask
        )  # (B, seq_len, seq_len)
        decoder_output = self.network.decode(
            encoder_output, encoder_mask, decoder_input, decoder_mask
        )
        proj_output = self.network.project(decoder_output)  # (B, seq_len, vocab_size)

        return proj_output

    def training_step(self, batch, batch_idx):
        encoder_input = batch["encoder_input"]
        decoder_input = batch["decoder_input"]
        encoder_mask = batch["encoder_mask"]
        decoder_mask = batch["decoder_mask"]
        proj_output = self.forward(
            encoder_input, decoder_input, encoder_mask, decoder_mask
        )

        label = batch["label"]  # (B, seq_len)
        loss = self.loss_fn(
            proj_output.view(-1, self.tokenizer_tgt.get_vocab_size()), label.view(-1)
        )

        # update and log metrics
        self.train_loss.append(loss)
        mean_loss = sum(self.train_loss) / len(self.train_loss)
        self.log("Train Loss", mean_loss, prog_bar=True)

        self.epoch_condition = 1

        return loss

    def validation_step(self, batch, batch_idx):
        encoder_input = batch["encoder_input"]
        decoder_input = batch["decoder_input"]
        encoder_mask = batch["encoder_mask"]
        decoder_mask = batch["decoder_mask"]
        proj_output = self.forward(
            encoder_input, decoder_input, encoder_mask, decoder_mask
        )

        label = batch["label"]  # (B, seq_len)
        loss = self.loss_fn(
            proj_output.view(-1, self.tokenizer_tgt.get_vocab_size()), label.view(-1)
        )

        # update and log metrics
        self.val_loss.append(loss)
        mean_loss = sum(self.val_loss) / len(self.val_loss)
        self.log("Val Loss", mean_loss, prog_bar=True)

        self.last_batch = batch

    def on_validation_epoch_end(self) -> None:
        if self.epoch_condition > 0:

            print(f"Epoch : {self.current_epoch}")

            train_mean_loss = sum(self.train_loss) / len(self.train_loss)
            print(f"Training Loss : {train_mean_loss:5f}")

            val_mean_loss = sum(self.val_loss) / len(self.val_loss)
            print(f"Validation Loss : {val_mean_loss:5f}")

            self.run_validation(self, self.last_batch)

            self.train_loss = []
            self.val_loss = []

            self.epoch_condition = 0

    def configure_optimizers(self):
        optimizer = torch.optim.Adam(self.parameters(), lr=self.learning_rate, eps=1e-9)

        return [optimizer]

    def greedy_decode(self, source, source_mask, max_len: int, device: str):
        sos_idx = self.tokenizer_tgt.token_to_id("[SOS]")
        eos_idx = self.tokenizer_tgt.token_to_id("[EOS]")

        # encoder output
        encoder_output = self.network.encode(source, source_mask)
        decoder_input = torch.empty(1, 1).fill_(sos_idx).type_as(source).to(device)
        while True:
            if decoder_input.size(1) == max_len:
                break
            # build target mask
            decoder_mask = (
                causal_mask(decoder_input.size(1)).type_as(source_mask).to(device)
            )
            out = self.network.decode(
                encoder_output, source_mask, decoder_input, decoder_mask
            )

            # get next token
            prob = self.network.project(out[:, -1])
            _, next_word = torch.max(prob, dim=1)
            decoder_input = torch.cat(
                [
                    decoder_input,
                    torch.empty(1, 1)
                    .type_as(source)
                    .fill_(next_word.item())
                    .to(device),
                ],
                dim=1,
            )
            if next_word == eos_idx:
                break

        return decoder_input.squeeze(0)

    def run_validation(self, model, data):
        model.eval()

        src = data["encoder_input"]
        src_mask = data["encoder_mask"]

        model_out = self.greedy_decode(
            src, src_mask, max_len=self.seq_len, device=self.device
        )

        source_text = data["src_text"]
        target_text = data["tgt_text"]
        model_out_text = self.tokenizer_tgt.decode(model_out.detach().cpu().numpy())

        expected = target_text
        predicted = model_out_text

        metric = CharErrorRate()
        cer = metric(predicted, expected)

        metric = WordErrorRate()
        wer = metric(predicted, expected)

        metric = BLEUScore()
        bleu = metric(predicted, expected)

        print("----------------------------------------------------------------------")
        print(f"SOURCE    => {source_text}")
        print(f"Ground Truth  => {expected}")
        print(f"PREDICTED => {predicted}")
        print("----------------------------------------------------------------------")
        print(f"Validation CER  => {cer}")
        print(f"Validation WER  => {wer}")
        print(f"Validation BLEU => {bleu}")
        print("----------------------------------------------------------------------")

        self.log("Validation - CER", cer, prog_bar=True)
        self.log("Validation - WER", wer, prog_bar=True)
        self.log("Validation - BLEU", bleu, prog_bar=True)

        model.train()


data = OpusDataSetModule()
data.setup()

src, tgt = data.tokenizer_src, data.tokenizer_tgt
model = BilingualModel(learning_rate=1e-4, tokenizer_src=src, tokenizer_tgt=tgt)

trainer = pl.Trainer(precision=16, max_epochs=config['num_epochs'], accelerator="gpu")

trainer.fit(model, data)



Downloading builder script:   0%|          | 0.00/2.40k [00:00<?, ?B/s]

Downloading metadata:   0%|          | 0.00/7.98k [00:00<?, ?B/s]

Downloading and preparing dataset opus_books/en-it (download: 3.14 MiB, generated: 8.58 MiB, post-processed: Unknown size, total: 11.72 MiB) to /root/.cache/huggingface/datasets/opus_books/en-it/1.0.0/e8f950a4f32dc39b7f9088908216cd2d7e21ac35f893d04d39eb594746af2daf...


Downloading data:   0%|          | 0.00/3.30M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/32332 [00:00<?, ? examples/s]

Dataset opus_books downloaded and prepared to /root/.cache/huggingface/datasets/opus_books/en-it/1.0.0/e8f950a4f32dc39b7f9088908216cd2d7e21ac35f893d04d39eb594746af2daf. Subsequent calls will reuse this data.
Max length of source sentence: 309
Max length of target sentence: 274
Source Tokenizer Vocab Size : 15698
Target Tokenizer Vocab Size : 22463




  rank_zero_warn(


Sanity Checking: 0it [00:00, ?it/s]



Training: 0it [00:00, ?it/s]

Validation: 0it [00:00, ?it/s]

Epoch : 0
Training Loss : 6.415343
Validation Loss : 5.635556




----------------------------------------------------------------------
SOURCE    => ["He closed his eyes... 'and it turned out that I had killed him...' and he shook his head to drive away the stupid thought. 'What sense is there in killing a man in order to define one's relations with a guilty wife and a son?"]
Ground Truth  => ['Ammettiamo che mi insegnino come fare — continuò a pensare — che mi mettano in posizione... io premo il grilletto — si disse socchiudendo gli occhi — e ammettiamo che lo uccida — disse fra sé Aleksej Aleksandrovic e scosse il capo per scacciare questi sciocchi pensieri. — Quale senso può avere l’uccisione di un uomo al fine di regolare i propri rapporti con una moglie infedele e un figlio?']
PREDICTED => E che non si aveva detto a lui , ma non si aveva detto a lui , e che non si aveva detto a lui , e che non si aveva detto a lui , e non si si , e non si si .
----------------------------------------------------------------------
Validation CER  => 0.7474489808

Validation: 0it [00:00, ?it/s]

Epoch : 1
Training Loss : 5.663523
Validation Loss : 5.230809
----------------------------------------------------------------------
SOURCE    => ["He closed his eyes... 'and it turned out that I had killed him...' and he shook his head to drive away the stupid thought. 'What sense is there in killing a man in order to define one's relations with a guilty wife and a son?"]
Ground Truth  => ['Ammettiamo che mi insegnino come fare — continuò a pensare — che mi mettano in posizione... io premo il grilletto — si disse socchiudendo gli occhi — e ammettiamo che lo uccida — disse fra sé Aleksej Aleksandrovic e scosse il capo per scacciare questi sciocchi pensieri. — Quale senso può avere l’uccisione di un uomo al fine di regolare i propri rapporti con una moglie infedele e un figlio?']
PREDICTED => Ella si alzò e mi disse , e io mi a me , e che mi la sua moglie di , e la sua moglie di la sua moglie di , che la sua moglie è un ’ altra cosa ?
----------------------------------------------------

Validation: 0it [00:00, ?it/s]

Epoch : 2
Training Loss : 5.282381
Validation Loss : 4.978122
----------------------------------------------------------------------
SOURCE    => ["He closed his eyes... 'and it turned out that I had killed him...' and he shook his head to drive away the stupid thought. 'What sense is there in killing a man in order to define one's relations with a guilty wife and a son?"]
Ground Truth  => ['Ammettiamo che mi insegnino come fare — continuò a pensare — che mi mettano in posizione... io premo il grilletto — si disse socchiudendo gli occhi — e ammettiamo che lo uccida — disse fra sé Aleksej Aleksandrovic e scosse il capo per scacciare questi sciocchi pensieri. — Quale senso può avere l’uccisione di un uomo al fine di regolare i propri rapporti con una moglie infedele e un figlio?']
PREDICTED => Egli si alzò e lo sguardo di lui , e io mi aveva detto che la mano , e si mise a guardare il suo viso , che si a un ’ espressione di un sorriso di un sorriso di Stepan Arkad ’ ic , e la moglie di u

Validation: 0it [00:00, ?it/s]

Epoch : 3
Training Loss : 4.984353
Validation Loss : 4.806454
----------------------------------------------------------------------
SOURCE    => ["He closed his eyes... 'and it turned out that I had killed him...' and he shook his head to drive away the stupid thought. 'What sense is there in killing a man in order to define one's relations with a guilty wife and a son?"]
Ground Truth  => ['Ammettiamo che mi insegnino come fare — continuò a pensare — che mi mettano in posizione... io premo il grilletto — si disse socchiudendo gli occhi — e ammettiamo che lo uccida — disse fra sé Aleksej Aleksandrovic e scosse il capo per scacciare questi sciocchi pensieri. — Quale senso può avere l’uccisione di un uomo al fine di regolare i propri rapporti con una moglie infedele e un figlio?']
PREDICTED => Egli si alzò e gli occhi di lui , e io , che io non aveva bisogno di , e che gli aveva detto : “ Che cosa è un uomo che è stato un uomo , che è un uomo , con la moglie , con la moglie , con la mogl

Validation: 0it [00:00, ?it/s]

Epoch : 4
Training Loss : 4.718688
Validation Loss : 4.683496
----------------------------------------------------------------------
SOURCE    => ["He closed his eyes... 'and it turned out that I had killed him...' and he shook his head to drive away the stupid thought. 'What sense is there in killing a man in order to define one's relations with a guilty wife and a son?"]
Ground Truth  => ['Ammettiamo che mi insegnino come fare — continuò a pensare — che mi mettano in posizione... io premo il grilletto — si disse socchiudendo gli occhi — e ammettiamo che lo uccida — disse fra sé Aleksej Aleksandrovic e scosse il capo per scacciare questi sciocchi pensieri. — Quale senso può avere l’uccisione di un uomo al fine di regolare i propri rapporti con una moglie infedele e un figlio?']
PREDICTED => Egli si avvicinò e gli occhi di lui , e io lo aveva fatto che io non aveva la testa , e gli disse : “ Che cosa c ’ è un uomo , che sia una moglie di una moglie , con un ’ uomo ?
-------------------

Validation: 0it [00:00, ?it/s]

Epoch : 5
Training Loss : 4.467716
Validation Loss : 4.611306
----------------------------------------------------------------------
SOURCE    => ["He closed his eyes... 'and it turned out that I had killed him...' and he shook his head to drive away the stupid thought. 'What sense is there in killing a man in order to define one's relations with a guilty wife and a son?"]
Ground Truth  => ['Ammettiamo che mi insegnino come fare — continuò a pensare — che mi mettano in posizione... io premo il grilletto — si disse socchiudendo gli occhi — e ammettiamo che lo uccida — disse fra sé Aleksej Aleksandrovic e scosse il capo per scacciare questi sciocchi pensieri. — Quale senso può avere l’uccisione di un uomo al fine di regolare i propri rapporti con una moglie infedele e un figlio?']
PREDICTED => Egli si alzò e gli occhi gli occhi — e cominciò a dire che io — e cominciò a dire : — Che cosa c ’ è qualcosa di simile a un uomo , che fa con la testa di una donna di felicità , di una donna di fe

Validation: 0it [00:00, ?it/s]

Epoch : 6
Training Loss : 4.227039
Validation Loss : 4.570920
----------------------------------------------------------------------
SOURCE    => ["He closed his eyes... 'and it turned out that I had killed him...' and he shook his head to drive away the stupid thought. 'What sense is there in killing a man in order to define one's relations with a guilty wife and a son?"]
Ground Truth  => ['Ammettiamo che mi insegnino come fare — continuò a pensare — che mi mettano in posizione... io premo il grilletto — si disse socchiudendo gli occhi — e ammettiamo che lo uccida — disse fra sé Aleksej Aleksandrovic e scosse il capo per scacciare questi sciocchi pensieri. — Quale senso può avere l’uccisione di un uomo al fine di regolare i propri rapporti con una moglie infedele e un figlio?']
PREDICTED => Si alzò gli occhi , e lo che gli aveva detto , e gli , e si mise a camminare in mente : “ Che cosa c ’ è , è un uomo che fa , in un uomo , è colpevole di una moglie ?
------------------------------

Validation: 0it [00:00, ?it/s]

Epoch : 7
Training Loss : 3.996166
Validation Loss : 4.564228
----------------------------------------------------------------------
SOURCE    => ["He closed his eyes... 'and it turned out that I had killed him...' and he shook his head to drive away the stupid thought. 'What sense is there in killing a man in order to define one's relations with a guilty wife and a son?"]
Ground Truth  => ['Ammettiamo che mi insegnino come fare — continuò a pensare — che mi mettano in posizione... io premo il grilletto — si disse socchiudendo gli occhi — e ammettiamo che lo uccida — disse fra sé Aleksej Aleksandrovic e scosse il capo per scacciare questi sciocchi pensieri. — Quale senso può avere l’uccisione di un uomo al fine di regolare i propri rapporti con una moglie infedele e un figlio?']
PREDICTED => i suoi occhi ... — e lo guardò in modo che gli aveva dato la testa ... — e cominciò a scrivere , a scrivere , a , “ Che cosa c ’ è , per un uomo , per un uomo di amore ?
---------------------------

Validation: 0it [00:00, ?it/s]

Epoch : 8
Training Loss : 3.768280
Validation Loss : 4.583745
----------------------------------------------------------------------
SOURCE    => ["He closed his eyes... 'and it turned out that I had killed him...' and he shook his head to drive away the stupid thought. 'What sense is there in killing a man in order to define one's relations with a guilty wife and a son?"]
Ground Truth  => ['Ammettiamo che mi insegnino come fare — continuò a pensare — che mi mettano in posizione... io premo il grilletto — si disse socchiudendo gli occhi — e ammettiamo che lo uccida — disse fra sé Aleksej Aleksandrovic e scosse il capo per scacciare questi sciocchi pensieri. — Quale senso può avere l’uccisione di un uomo al fine di regolare i propri rapporti con una moglie infedele e un figlio?']
PREDICTED => Si alzò gli occhi ... — e lo chiamò . — E lui , la testa ... — e cominciò a prendere un uomo che si diceva a un uomo , per un uomo , per un uomo , per un uomo di moglie , di una moglie , di una mog

Validation: 0it [00:00, ?it/s]

Epoch : 9
Training Loss : 3.554070
Validation Loss : 4.625346
----------------------------------------------------------------------
SOURCE    => ["He closed his eyes... 'and it turned out that I had killed him...' and he shook his head to drive away the stupid thought. 'What sense is there in killing a man in order to define one's relations with a guilty wife and a son?"]
Ground Truth  => ['Ammettiamo che mi insegnino come fare — continuò a pensare — che mi mettano in posizione... io premo il grilletto — si disse socchiudendo gli occhi — e ammettiamo che lo uccida — disse fra sé Aleksej Aleksandrovic e scosse il capo per scacciare questi sciocchi pensieri. — Quale senso può avere l’uccisione di un uomo al fine di regolare i propri rapporti con una moglie infedele e un figlio?']
PREDICTED => gli occhi ... — e lo prese per un po ’ di tempo e cominciò a dire : — E cominciò a prendere il capo alla testa ... “ Che cosa c ’ è , in un uomo , che c ’ è qualcosa di colpevole ?
----------------