In [20]:
#!g1.1
%config Completer.use_jedi = False
%load_ext autoreload
%autoreload 2

In [21]:
#!g1.1
from IPython.display import display, HTML, Video
display(HTML("<style>.container { width:90% !important; }</style>"))

In [22]:
#!g1.1
# ! git clone --recursive https://github.com/pe-trik/ctcdecode.git
# %pip install ./ctcdecode

In [23]:
#!g1.1
import torch
import torchaudio
from torch.utils.data import Dataset, DataLoader

import sentencepiece

In [24]:
#!g1.1
# os.getcwd()

In [25]:
#!g1.1
import os
import glob
import json
import regex

import tqdm.notebook as tqdm

import numpy as np
import pandas as pd

from ipywidgets import GridBox, Audio, HBox, VBox, Box, Label, Layout

import matplotlib.pyplot as plt
# import matplotlib_inline

%matplotlib inline
# matplotlib_inline.backend_inline.set_matplotlib_formats('svg')

In [26]:
#!g1.1
base_path = '/home/jupyter/mnt/datasets'

libri_speech_base_path = os.path.join(base_path, 'LibriSpeech_ds')
golos_base_path = os.path.join(base_path, 'golos')

device = torch.device("cuda", 0)

In [27]:
#!g1.1
from src.dataset import get_libri_speech_dataset, get_golos_dataset

libri_speech_dev = get_libri_speech_dataset(libri_speech_base_path, split='dev')
libri_speech_train = get_libri_speech_dataset(libri_speech_base_path, split='train')
libri_speech_test = get_libri_speech_dataset(libri_speech_base_path, split='test')

print('Loaded {0:d} objects'.format(len(libri_speech_dev['audio_path'])))
print('Loaded {0:d} objects'.format(len(libri_speech_train['audio_path'])))
print('Loaded {0:d} objects'.format(len(libri_speech_test['audio_path'])))

# Load tokenizer model
sp_tokenizer = sentencepiece.SentencePieceProcessor(model_file='tokenizer.model')

Loaded 1400 objects
Loaded 54472 objects
Loaded 1352 objects


In [28]:
#!g1.1
from src.dataset import AudioDataset, collate_fn

libri_speech_dev_ds = AudioDataset(libri_speech_dev, sp_tokenizer, min_duration=1.36, max_duration=10.96)
libri_speech_train_ds = AudioDataset(libri_speech_train, sp_tokenizer, min_duration=1.36, max_duration=10.96)
libri_speech_test_ds = AudioDataset(libri_speech_test, sp_tokenizer, min_duration=1.36, max_duration=10.96)

batch_size = 20
num_workers = 0

libri_speech_dev_dl = DataLoader(
    libri_speech_dev_ds, batch_size=batch_size, shuffle=False,
    num_workers=num_workers, pin_memory=False, collate_fn=collate_fn
)

libri_speech_train_dl = DataLoader(
    libri_speech_train_ds, batch_size=batch_size, shuffle=False,
    num_workers=num_workers, pin_memory=False, collate_fn=collate_fn
)

libri_speech_test_dl = DataLoader(
    libri_speech_test_ds, batch_size=batch_size, shuffle=False,
    num_workers=num_workers, pin_memory=False, collate_fn=collate_fn
)

train_dataloaders = {
    'libri_speech/train': libri_speech_train_dl, 
#     'golos/train': golos_train
}

validate_dataloaders = {
#     'golos/test/crowd': golos_test_crowd,
#     'golos/test/farfield': golos_test_farfield,
    'libri_speech/dev': libri_speech_dev_dl,
    'libri_speech/test': libri_speech_test_dl,
}



In [29]:
#!g1.1
libri_speech_dev_dl

<torch.utils.data.dataloader.DataLoader at 0x7fc784824640>

In [30]:
#!g1.1
batch = next(iter(libri_speech_dev_dl))
batch["audio"] = batch["audio"].to(device)
batch["audio_len"] = batch["audio_len"].to(device)
batch["audio"].device

device(type='cuda', index=0)

In [31]:
#!g1.1
from src.conformer import Conformer

conformer = Conformer()
conformer.to(device);

In [32]:
#!g1.1
weights = torch.load("conformer.pt")
conformer.load_state_dict(weights)

<All keys matched successfully>

In [33]:
#!g1.1
conformer.eval()
log_pb, enc_len, gp = conformer(batch["audio"], batch["audio_len"])
print(log_pb)
print(enc_len)
print(gp)

tensor([[[-3.4755e+01, -3.1851e-03, -1.3494e+01,  ..., -2.0284e+01,
          -1.8317e+01, -6.8318e+00],
         [-4.8094e+01, -2.1501e+00, -1.3310e+01,  ..., -2.8854e+01,
          -1.8606e+01, -1.6177e-01],
         [-3.9684e+01, -1.2522e+01, -1.3445e+01,  ..., -2.5405e+01,
          -2.0685e+01, -6.8880e+00],
         ...,
         [-3.9987e+01, -1.4132e+01, -1.1525e+01,  ..., -2.1755e+01,
          -1.8847e+01, -3.2265e-04],
         [-4.0253e+01, -1.3717e+01, -1.1851e+01,  ..., -2.1617e+01,
          -1.9078e+01, -2.5627e-04],
         [-4.0497e+01, -1.3089e+01, -1.2358e+01,  ..., -2.1578e+01,
          -1.9446e+01, -1.7272e-04]],

        [[-4.3224e+01, -9.8220e+00, -1.2973e+01,  ..., -2.2265e+01,
          -1.9181e+01, -1.2325e-04],
         [-4.2678e+01, -5.4410e+00, -1.2212e+01,  ..., -1.9231e+01,
          -2.0382e+01, -6.0674e-03],
         [-3.1704e+01, -3.2840e+00, -1.1211e+01,  ..., -1.2642e+01,
          -1.8116e+01, -4.1934e+00],
         ...,
         [-4.0068e+01, -1

In [35]:
#!g1.1
from src_my.metrics import ctc_greedy_decoding, beam_search_decoding, fast_beam_search_decoding

print([(idx, sp_tokenizer.decode((token if token != 128 else 1))) for idx, token in enumerate(log_pb[0].argmax(dim=-1).tolist())])

ctc_greedy_decoding(log_pb, enc_len, 128, sp_tokenizer)[0]

[(0, ''), (1, ''), (2, 'да'), (3, ''), (4, 'й'), (5, ''), (6, ''), (7, 'б'), (8, ''), (9, 'о'), (10, ''), (11, ''), (12, 'г'), (13, ''), (14, ''), (15, 'что'), (16, ''), (17, ''), (18, 'б'), (19, 'б'), (20, ''), (21, 'про'), (22, ''), (23, ''), (24, ''), (25, 'с'), (26, ''), (27, 'в'), (28, 'ве'), (29, ''), (30, ''), (31, 'ти'), (32, ''), (33, ''), (34, ''), (35, ''), (36, 'ли'), (37, 'с'), (38, 'с'), (39, 'ь'), (40, 'ь'), (41, ''), (42, 'м'), (43, 'м'), (44, 'ы'), (45, ''), (46, ''), (47, ''), (48, ''), (49, ''), (50, ''), (51, ''), (52, ''), (53, ''), (54, ''), (55, ''), (56, ''), (57, ''), (58, ''), (59, ''), (60, ''), (61, '')]


'дай бог чтоб просвветились мы'

In [36]:
#!g1.1
[sp_tokenizer.decode(token) for token in torch.topk(log_pb[0, 28], k=10).indices.tolist()]

['ве', 'я', 'ре', 'е', 'ле', 'ви', 'и', 'у', 'ли', 'о']

In [37]:
#!g1.1
sp_tokenizer.id_to_piece(22)

'б'

In [53]:
#!g1.1
fast_beam_search_decoding(log_pb[0:1], 128, sp_tokenizer, beam_size=150, alpha=9e-4)

['<unk>', ' ', 'е', 'с', 'о', 'т', 'а', 'и', 'н', 'м', 'й', 'р', 'у', 'я', 'л', 'д', ' с', 'ы', ' в', 'в', 'з', 'к', 'б', 'г', 'но', 'п', ' на', 'ра', 'ть', 'ка', 'ш', ' по', 'ни', 'на', 'х', 'то', 'ли', 'ь', 'ро', 'ре', 'ва', ' и', 'го', ' б', ' п', 'ла', 'ко', 'ль', 'ле', 'ст', 'ю', 'ц', ' о', 'ки', 'ж', 'те', 'ло', 'ве', 'ти', 'во', 'та', 'де', 'ся', 'ч', ' д', ' не', ' за', 'ма', ' у', 'че', 'ри', 'ф', 'да', 'ви', 'ди', 'ны', ' к', 'ча', 'ру', ' а', 'э', ' ко', 'ми', ' как', 'щ', 'же', ' про', ' мо', ' включи', 'лю', ' от', ' до', 'ку', 'жи', 'ну', ' мне', ' что', 'чи', 'ста', ' фильм', ' де', 'мен', ' сезон', ' при', ' это', ' тебя', ' тв', ' смотрешке', ' есть', ' три', ' пять', ' сбер', ' афина', ' джой', ' один', ' салют', ' сериал', ' четыре', ' семь', ' шесть', ' восемь', ' покажи', ' канал', ' хочу', ' двадцать', ' серия', ' можешь', 'ъ', 'blank'] 1!
[1, 72, 10, 22, 4, 23, 96, 22, 86, 3, 19, 57, 58, 36, 3, 37, 1, 9, 17]
[1, 72, 10, 22, 4, 23, 96, 22, 86, 3, 19, 13, 58, 36, 3

[[('дайбог чтоб просвветились мы', tensor(4.1550)),
  ('дайбог чтоб просвятились мы', tensor(4.5046)),
  ('дай бог чтоб просвветились мы', tensor(1.9201)),
  ('дай бог чтоб просвятились мы', tensor(2.2697)),
  ('дайбог чтоб просвветилисьмы', tensor(8.1249)),
  ('дайбог чтоб просвятилисьмы', tensor(8.4759)),
  ('дай бог чтоб просвветилисьмы', tensor(5.8913)),
  ('дайбог чтоб просвветились с мы', tensor(5.0013)),
  ('дайбог чтоб просвятились с мы', tensor(5.3508)),
  ('дайбог чтоб просветились мы', tensor(6.2702)),
  ('дай бог чтоб просвятилисьмы', tensor(6.3343)),
  ('дай бог чтоб просвветились с мы', tensor(2.7662)),
  ('дайбог что просвветились мы', tensor(7.2621)),
  ('дайбог чтоб про свветились мы', tensor(5.7212)),
  ('дайбог чтоб просятились мы', tensor(6.6197)),
  ('дай бог чтоб просвятились с мы', tensor(3.1157)),
  ('дайбог что просвятились мы', tensor(7.6511)),
  ('дай бог чтоб просветились мы', tensor(4.0746)),
  ('дай бог что просвветились мы', tensor(5.0988)),
  ('дайбог чт

In [None]:
#!g1.1
batch['text'][0:5]

In [None]:
#!g1.1
sp_tokenizer.decode(gp[1][gp[1] != 128].tolist())

In [173]:
#!g1.1
from src.metrics import WERMetric

metric = WERMetric(128, sp_tokenizer)

reference = batch["text"]

metric.update(log_pb, enc_len, reference)

wer, words, scores = metric.compute()
print(wer, words, scores, sep="\n")
print(hypothesis, reference, sep="\n")

0.5777777777777777
45
26
['дай бог чтоб просвветились мы', 'на где же первый званый гость', 'вот что хочет ссяне зоинька', 'м только лень и непоковство', 'теснимма шведов фрайд заратьюг', 'усоты куда свой танный путь', 'давновней и скорасгоралась', 'вн неемрачный дух неснал покоя']
['дай бог чтоб просветились мы', 'но где же первый званый гость', 'вот что хочется мне зоинька', 'в нем только лень и непокорство', 'тесним мы шведов рать за ратью', 'куда свой тайный путь направил', 'давно в ней искра разгоралась', 'в нем мрачный дух не знал покоя']


In [175]:
#!g1.1
a = conformer.loss(torch.transpose(log_pb, 0, 1), batch["tokens"], enc_len, batch["tokens_len"])

In [None]:
#!g1.1

In [184]:
#!g1.1
from src.train import evaluate

wer_res_dev, ctc_res_dev = evaluate(conformer, sp_tokenizer, libri_speech_dev_dl, device)
wer_res_train, ctc_res_train = evaluate(conformer, sp_tokenizer, libri_speech_train_dl, device)
wer_res_test, ctc_res_test = evaluate(conformer, sp_tokenizer, libri_speech_test_dl, device)

100%|██████████| 147/147 [00:10<00:00, 14.48it/s]
100%|██████████| 6153/6153 [14:45<00:00,  6.95it/s]
100%|██████████| 148/148 [00:22<00:00,  6.49it/s]


In [185]:
#!g1.1
print(wer_res_dev, wer_res_train, wer_res_test, sep="\n")

(0.5690275229357799, 13625, 7753)
(0.48950873808021966, 539020, 263855)
(0.573453975491593, 14036, 8049)


In [None]:
#!g1.1
from src.train import train
from src.scheduler import NoamAnnealing

optimizer = torch.optim.AdamW(conformer.parameters(), lr=2, weight_decay=1e-3)
scheduler = NoamAnnealing(optimizer, d_model=conformer.d_model, warmup_steps=600)

train(conformer, sp_tokenizer, None, optimizer, scheduler, 10, libri_speech_dev_dl, validate_dataloaders, device, model_dir="model_train")

HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=10.0), HTML(value='')))

HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=59.0), HTML(value='')))