# Домашнее задание по Speech

Привет! Пора закрепить тему ASR на практике. В этой домашке тебя ждёт два крутых этапа:

1. Собери ASR с нуля:
  * Научишься обрабатывать аудио, проектировать нейросети для задачи ASR,
получать предсказания и считать метрики вроде WER.
  * Создашь модель, которая превращает речь в текст. Никакой магии — только код, данные и тренировки.

2. Сделай её «стриминговой»:
  * Переделаешь модель так, чтобы она работала в реальном времени (как в Zoom или Алисе).
  * Разберёшься, как уменьшить задержки и балансировать между скоростью и точностью.

**Чего получится:** готовый ASR, который понимает и записанную речь, и поток с микрофона. Потрогаешь torch, torchaudio, librosa и поймёшь, как устроены голосовые ассистенты.



---



# Offline ASR

### Подготовим различные утилиты и пакеты



In [29]:
!pip install levenshtein



In [30]:
import os
os.environ['PYTORCH_ENABLE_MPS_FALLBACK'] = '1'

import torch
import string
import librosa
import torchaudio
import Levenshtein
import numpy as np
import torch.nn as nn
import torch.utils.data as data
import torch.nn.functional as F

from tqdm import tqdm
from torch import optim
from typing import Tuple, List, Dict, Union

In [31]:
torch.manual_seed(7)

if torch.backends.mps.is_available():
    print("MPS (Apple GPU) found! 🍏🚀")
    device = "mps"
else:
    print("Only CPU found! 💻")
    device = "cpu"

MPS (Apple GPU) found! 🍏🚀




---



### Метрики

Подробнее почитать про то, как работает WER / CER можно тут:
* https://huggingface.co/learn/audio-course/ru/chapter5/evaluation

In [32]:
def cer(reference: str, hypothesis: str, ignore_case: bool = False, remove_space: bool = False) -> float:
    """Вычисляет Character Error Rate (CER) между эталонной и проверяемой строками.

    CER - это метрика, которая сравнивает эталонный текст (оригинал) с проверяемым текстом
    (предсказание) на уровне символов. Вычисляет редакционное расстояние (расстояние Левенштейна)
    между строками и нормализует его по длине эталонного текста.

    Аргументы:
        reference (str): Эталонная строка для сравнения (оригинальный текст).
        hypothesis (str): Проверяемая строка (предсказанный текст).
        ignore_case (bool, опционально): Если True, игнорирует регистр при сравнении. По умолчанию False.
        remove_space (bool, опционально): Если True, удаляет пробелы перед сравнением. По умолчанию False.

    Возвращает:
        float: Значение Character Error Rate от 0 до 1, где 0 означает полное совпадение.

    Выбрасывает:
        ValueError: Если длина эталонной строки после предобработки равна 0.
    """
    edit_distance, ref_len = char_errors(
        reference, hypothesis, ignore_case, remove_space
    )

    if ref_len == 0:
        raise ValueError("Length of reference should be greater than 0.")

    cer = float(edit_distance) / ref_len
    return cer


def wer(reference: str, hypothesis: str, ignore_case: bool = False, remove_space: bool = False, delimiter: str = " ") -> float:

    """Вычисляет Word Error Rate (WER) между эталонным и проверяемым текстом.

    WER - это метрика, которая сравнивает эталонный текст с проверяемым текстом
    на уровне слов. Вычисляет редакционное расстояние (расстояние Левенштейна)
    между последовательностями слов и нормализует его по количеству слов в эталонном тексте.

    Аргументы:
        reference (str): Эталонный текст для сравнения (оригинальный текст).
        hypothesis (str): Проверяемый текст (предсказанный текст).
        ignore_case (bool, опционально): Если True, игнорирует регистр при сравнении.
                                        По умолчанию False.
        delimiter (str, опционально): Разделитель для токенизации текста на слова.
                                     По умолчанию пробел (" ").

    Возвращает:
        float: Значение Word Error Rate от 0 до 1, где:
               - 0 означает полное совпадение
               - 1 означает полное несовпадение

    Выбрасывает:
        ValueError: Если количество слов в эталонном тексте равно 0 после обработки.

    Пример:
        >>> wer("это тест", "этот тест")
        0.5  # одна ошибка (замена) при двух словах в эталоне
    """
    edit_distance, ref_len = word_errors(reference, hypothesis, ignore_case, delimiter)

    if ref_len == 0:
        raise ValueError("Reference's word number should be greater than 0.")

    wer = float(edit_distance) / ref_len
    return wer


def char_errors(reference: str, hypothesis: str, ignore_case: bool = False, remove_space: bool = False) -> Tuple[float, int]:
    """Вычисляет количество ошибок и длину эталонной строки после предобработки.

    Функция выполняет сравнение двух строк на уровне символов с учетом опциональных
    преобразований и возвращает:
    1) Расстояние Левенштейна (редакционное расстояние) между строками
    2) Длину эталонной строки после обработки

    Аргументы:
        reference (str): Эталонная строка (оригинальный текст)
        hypothesis (str): Проверяемая строка (предсказанный текст)
        ignore_case (bool, опционально): Флаг игнорирования регистра. Если True,
                                       сравнение происходит в нижнем регистре.
                                       По умолчанию False.
        remove_space (bool, опционально): Флаг удаления пробелов. Если True,
                                        все пробелы удаляются перед сравнением.
                                        По умолчанию False.

    Возвращает:
        tuple[float, int]: Кортеж из двух элементов:
        - float: Расстояние Левенштейна между строками
        - int: Длина эталонной строки после обработки

    Примеры:
        >>> char_errors("тест", "тест")
        (0.0, 4)  # полное совпадение

        >>> char_errors("Тест", "тест", ignore_case=True)
        (0.0, 4)  # совпадение при игнорировании регистра

        >>> char_errors("т е с т", "тест", remove_space=True)
        (0.0, 4)  # совпадение после удаления пробелов
    """
    if ignore_case:
        reference = reference.lower()
        hypothesis = hypothesis.lower()

    join_char = " "
    if remove_space:
        join_char = ""

    reference = join_char.join(filter(None, reference.split(" ")))
    hypothesis = join_char.join(filter(None, hypothesis.split(" ")))

    edit_distance = Levenshtein.distance(reference, hypothesis)
    return float(edit_distance), len(reference)


def word_errors(reference: str, hypothesis: str, ignore_case: bool = False, delimiter: str = " ") -> Tuple[float, int]:
    """Вычисляет количество ошибок и число слов в эталонном тексте после предобработки.

    Функция выполняет сравнение двух текстов на уровне слов с учетом опциональных
    преобразований и возвращает:
    1) Расстояние Левенштейна между последовательностями слов
    2) Количество слов в эталонном тексте после обработки

    Аргументы:
        reference (str): Эталонный текст (оригинальный текст)
        hypothesis (str): Проверяемый текст (предсказанный текст)
        ignore_case (bool, опционально): Флаг игнорирования регистра. Если True,
                                       сравнение происходит в нижнем регистре.
                                       По умолчанию False.
        delimiter (str, опционально): Разделитель для токенизации текста на слова.
                                    По умолчанию пробел (" ").

    Возвращает:
        tuple[float, int]: Кортеж из двух элементов:
        - float: Расстояние Левенштейна между последовательностями слов
        - int: Количество слов в эталонном тексте после обработки

    Примеры:
        >>> word_errors("это тест", "это тест")
        (0.0, 2)  # полное совпадение

        >>> word_errors("Это Тест", "это тест", ignore_case=True)
        (0.0, 2)  # совпадение при игнорировании регистра

        >>> word_errors("это,тест", "это тест", delimiter=",")
        (1.0, 2)  # различие при измененном разделителе

    Примечание:
        Для расчета расстояния между последовательностями слов используется
        алгоритм Левенштейна, применяемый к спискам слов.
    """
    if ignore_case:
        reference = reference.lower()
        hypothesis = hypothesis.lower()

    ref_words = reference.split(delimiter)
    hyp_words = hypothesis.split(delimiter)

    edit_distance = Levenshtein.distance(ref_words, hyp_words)
    return float(edit_distance), len(ref_words)


def avg_wer(wer_scores: List[float], combined_ref_len: Union[int, float]) -> float:
    return float(sum(wer_scores)) / float(combined_ref_len)

Всякое остальное...

In [33]:
def save_checkpoint(model, checkpoint_name, path="./"):
    torch.save(
        {"model_state_dict": model.state_dict()}, os.path.join(path, checkpoint_name)
    )


def load_checkpoint(model, path, checkpoint_name, device):
    checkpoint = torch.load(os.path.join(path, checkpoint_name), map_location=device)
    model.load_state_dict(checkpoint["model_state_dict"])



---



### Напишем свой CTC ASR!

Итак, суть задания - написать и обучить свой ASR с нуля на датасете [librispeech](https://www.openslr.org/12) clean

*librispeech clean* - это датасет с прочтением аудиокниг в достаточно чистых условиях.

На этом этапе домашки вам необходимо будет сделать следующие действия:
1. Написать Greedy Decoder - **0.5 балла**
2. Написать и обучить модель ASR - **4 балла**

Ожидаю, что в домашке вы сделаете ASR при помощи CTC лосса, но в целом другие схемы не запрещаются.

[Sample Rate](https://en.wikipedia.org/wiki/Sampling_(signal_processing)#Sampling_rate) датасета - 16kHz - эта информация будет вам полезна для подготовки датасета.

In [34]:
if not os.path.isdir("./data"):
    os.makedirs("./data")

train_dataset = torchaudio.datasets.LIBRISPEECH(
    "./data", url="train-clean-100", download=False
)
test_dataset = torchaudio.datasets.LIBRISPEECH(
    "./data", url="test-clean", download=False
)

SAMPLE_RATE = 16_000

Подготовим заранее простой токенизатор, который состоит из букв алфавита и бланк символа.

Подробнее про декодинг CTC декодинг [тут](https://distill.pub/2017/ctc/)

In [35]:
BLANK_SYMBOL = "_"

class Tokenizer:
    """Класс для преобразования между символами и их числовыми представлениями.

    Обеспечивает взаимно-однозначное соответствие между символами алфавита
    и их числовыми индексами. Поддерживает основные буквы английского алфавита,
    апостроф, пробел и специальный blank-символ для CTC-алгоритма.

    Атрибуты:
        char_map (Dict[str, int]): Словарь символ -> индекс
        index_map (Dict[int, str]): Словарь индекс -> символ
    """

    def __init__(self) -> None:
        """Инициализирует словари преобразования символов.

        Создает соответствия для:
        - Апострофа ('), пробела ( )
        - Строчных букв английского алфавита (a-z)
        - Специального blank-символа (по умолчанию '_')
        """
        self.char_map: Dict[str, int] = {}
        self.index_map: Dict[int, str] = {}
        for i, ch in enumerate(
            ["'", " "] + list(string.ascii_lowercase) + [BLANK_SYMBOL]
        ):
            self.char_map[ch] = i
            self.index_map[i] = ch

    def text_to_indices(self, text: str) -> List[int]:
        """Преобразует строку текста в список числовых индексов.

        Args:
            text: Входная строка для преобразования

        Returns:
            Список индексов, соответствующих символам входной строки

        Raises:
            KeyError: если встретится символ, отсутствующий в char_map
        """
        return [self.char_map[ch] for ch in text]

    def indices_to_text(self, labels: List[int]) -> str:
        """Преобразует список индексов обратно в строку.

        Args:
            labels: Список числовых индексов

        Returns:
            Строка, составленная из символов, соответствующих индексам

        Raises:
            KeyError: если встретится индекс, отсутствующий в index_map
        """
        return "".join([self.index_map[i] for i in labels])

    def get_symbol_index(self, sym: str) -> int:
        """Возвращает индекс для указанного символа.

        Args:
            sym: Символ, для которого требуется получить индекс

        Returns:
            Числовой индекс символа

        Raises:
            KeyError: если символ отсутствует в char_map
        """
        return self.char_map[sym]



---



### Greedy Decoding - 0.5 балла

Вам необходимо написать свой простенький Greedy Decoder для ASR. Правила можно посмотреть на лекции / загуглить. Для проверки будут использоваться тесты.

In [36]:
def greedy_decoder(
    output: torch.Tensor,
    input_lengths: List[int],
    labels: List[torch.Tensor],
    label_lengths: List[int],
    tokenizer: Tokenizer,
    blank_id: int = BLANK_SYMBOL
) -> Tuple[np.ndarray, np.ndarray]:
    """Реализует greedy-декодирование выхода CTC-модели с обработкой пакета данных.

    Функция выполняет:
    1. Декодирование предсказаний модели (удаление повторяющихся символов и blank-токенов)
    2. Декодирование целевых последовательностей (targets)
    3. Возвращает текстовые представления предсказаний и целей

    Аргументы:
        output (torch.Tensor): Тензор выхода модели размером [B, T, C],
                              где B - размер пакета, T - временные шаги, C - классы
        input_lengths (List[int]): Длины последовательностей для каждого элемента пакета
        labels (List[torch.Tensor]): Целевые последовательности (индексы символов)
        label_lengths (List[int]): Длины целевых последовательностей
        tokenizer (Tokenizer): Объект для преобразования индексов в текст
        blank_id (int, optional): Индекс blank-символа. По умолчанию BLANK_SYMBOL

    Возвращает:
        Tuple[np.ndarray, np.ndarray]: Кортеж из двух массивов:
            - decoded_outputs: Декодированные предсказания модели (текст)
            - decoded_targets: Декодированные целевые последовательности (текст)

    Пример:
        >>> output = torch.randn(2, 50, 30)  # пакет из 2 примеров
        >>> input_lengths = [45, 50]
        >>> labels = [torch.tensor([1,2,3]), torch.tensor([4,5,6])]
        >>> label_lengths = [3, 3]
        >>> preds, targets = greedy_decoder(output, input_lengths, labels, label_lengths, tokenizer)
        >>> print(preds[0])  # декодированное первое предсказание
    """
    decoded_outputs = []
    decoded_targets = []

    max_probs = torch.argmax(output, dim=-1)

    for i in range(output.size(0)):
        raw_prediction = max_probs[i][:input_lengths[i]].tolist()

        decoded = []
        previous = None
        for p in raw_prediction:
            if p != previous and p != tokenizer.get_symbol_index(blank_id):
                decoded.append(p)
            previous = p

        decoded_outputs.append(tokenizer.indices_to_text(decoded))

        target = labels[i][:label_lengths[i]].tolist()
        decoded_targets.append(tokenizer.indices_to_text(target))

    return np.array(decoded_outputs), np.array(decoded_targets)


Тесты

In [37]:
import pytest
import torch
from typing import List, Tuple
from unittest.mock import Mock

# Мок для tokenizer
class MockTokenizer(Tokenizer):
    def __init__(self):
        self.vocab = {'a': 0, 'b': 1, '_': 2}
        self.reverse_vocab = {v: k for k, v in self.vocab.items()}

    def get_symbol_index(self, symbol: str) -> int:
        return self.vocab[symbol]

    def indices_to_text(self, indices: List[int]) -> str:
        return ''.join([self.reverse_vocab[i] for i in indices])

mock_tokenizer = MockTokenizer()

test_cases = [
    # Базовый случай: нет повторов и бланков
    {
        "output": torch.tensor([[[0.9, 0.1, 0.0], [0.1, 0.8, 0.1], [0.2, 0.7, 0.1]]]),
        "input_lengths": [3],
        "labels": [torch.tensor([0, 1, 1])],
        "label_lengths": [3],
        "expected_output": ["ab"],
        "expected_target": ["abb"]
    },
    # Повторы и бланки
    {
        "output": torch.tensor([[[0.8, 0.1, 0.1], [0.1, 0.1, 0.8], [0.7, 0.2, 0.1], [0.1, 0.8, 0.1]]]),
        "input_lengths": [4],
        "labels": [torch.tensor([0, 1])],
        "label_lengths": [2],
        "expected_output": ["aab"],  # a, a, blank, b → aab (повтор a схлопывается)
        "expected_target": ["ab"]
    },
    # Все бланки
    {
        "output": torch.tensor([[[0.1, 0.1, 0.8], [0.2, 0.1, 0.7], [0.1, 0.2, 0.7]]]),
        "input_lengths": [3],
        "labels": [torch.tensor([])],
        "label_lengths": [3],
        "expected_output": [""],  # все токены - бланки
        "expected_target": [""]
    },
    # Обрезание по input_lengths
    {
        "output": torch.tensor([[[0.9, 0.0, 0.1], [0.8, 0.1, 0.1], [0.1, 0.9, 0.0], [0.1, 0.1, 0.8]]]),
        "input_lengths": [2],  # берем первые 2 элемента
        "labels": [torch.tensor([0, 1])],
        "label_lengths": [2],
        "expected_output": ["a"],  # a (первый), a (второй) → a (схлопывается)
        "expected_target": ["ab"]
    },
    # Пустые последовательности
    {
        "output": torch.tensor([[[0.1, 0.1, 0.8]]]),
        "input_lengths": [1],
        "labels": [torch.tensor([])],  # длина 0
        "label_lengths": [0],
        "expected_output": [""],
        "expected_target": [""]
    }
]

def test_greedy_decoder(test_case):
    decoded_outputs, decoded_targets = greedy_decoder(
        output=test_case["output"],
        input_lengths=test_case["input_lengths"],
        labels=test_case["labels"],
        label_lengths=test_case["label_lengths"],
        tokenizer=mock_tokenizer,
    )

    return decoded_outputs == test_case["expected_output"] and decoded_targets == test_case["expected_target"]

for i, test_case in enumerate(test_cases):
  result = test_greedy_decoder(test_case)
  print(f"Test {i}: {('Passed' if result else 'Failed')}!")

Test 0: Passed!
Test 1: Passed!
Test 2: Passed!
Test 3: Passed!
Test 4: Passed!




---



### Обучим свой ASR - 4 балла

В этой части домашки вам будет необходимо обучить свой ASR на датасете librispeech clean.

Вам необходимо будет сделать следующее:
1. Написать препроцессинг аудио для трейна и для теста. Нужно правильно получить спектрограмму, в трейн можете добавить аугментаций и тд.
2. Придумать архитектуру для вашей модели. Можете вдохновляться тем, что мы обсуждали на лекции: [QuartzNet](https://arxiv.org/abs/1910.10261), [JasperNet](https://arxiv.org/abs/1904.03288), [Conformer](https://arxiv.org/abs/2005.08100). А также теми, которые не успели обсудить: [DeepSpeech 2](https://arxiv.org/abs/1512.02595), [LAS](https://arxiv.org/abs/1508.01211), и всем остальным, что сможете найти. Здесь вы не чем не ограничены, только вашими вычислительными ресурсами :)
3. Написать трейн / тест луп. Я бы предложил обратить внимание на следующие вещи:
  * важно, чтобы правильно считался [CTCLoss](https://pytorch.org/docs/stable/generated/torch.nn.CTCLoss.html) (опять же можете использовать любой другой), часто у людей там бывают проблемы с масками и длинами :)
  * не забывайте про возможность использовать [автокаст](https://pytorch.org/docs/stable/amp.html), это позволит вам выбить скор получше в условиях, ограниченных по ресурсам.
4. Обучить модель.

*Для зачета по заданию достаточно получить 60 WER.*

**Важно!** Следующее задание - переписать ваш ASR на стриминговую версию, поэтому проектируйте вашу архитектуру так, чтобы ее было возможно переписать на стриминг, а также чтобы это было удобно. Например, не стоит использовать bidirectional lstm, которая требует контекста из будущего.

In [38]:
mel_spec_transform = torchaudio.transforms.MelSpectrogram(
    sample_rate=16000,
    n_fft=400,
    win_length=400,
    hop_length=160,
    n_mels=80,
)

db_transform = torchaudio.transforms.AmplitudeToDB(stype="power", top_db=80)


def preprocess_audio_train(audiodata: torch.Tensor) -> torch.Tensor:
    mel_spec = mel_spec_transform(audiodata)
    log_mel_spec = db_transform(mel_spec)
    log_mel_spec = torchaudio.transforms.FrequencyMasking(freq_mask_param=15)(log_mel_spec)
    log_mel_spec = torchaudio.transforms.TimeMasking(time_mask_param=35)(log_mel_spec)

    return log_mel_spec.transpose(0, 1)

def preprocess_audio_test(audiodata: torch.Tensor) -> torch.Tensor:
    mel_spec = mel_spec_transform(audiodata)
    log_mel_spec = db_transform(mel_spec)

    return log_mel_spec.transpose(0, 1)

In [39]:
class Collate:
    """Класс для создания батчей из данных LibriSpeech.

    Обрабатывает аудиоданные и текст, формируя батчи для обучения/тестирования модели:
    - Преобразует аудио в спектрограммы (с аугментациями для обучения)
    - Токенизирует текст
    - Выравнивает последовательности в батче с помощью паддинга

    Атрибуты:
        data_type (str): Тип данных ("train" или "test"), определяет применение аугментаций
    """

    def __init__(self, data_type: str = "test") -> None:
        """Инициализирует коллатор.

        Args:
            data_type: Тип данных ("train" для обучения с аугментациями,
                     "test" для валидации/теста без аугментаций)
        """
        super(Collate, self).__init__()
        self.data_type = data_type

    def __call__(
        self, data: torchaudio.datasets.librispeech.LIBRISPEECH
    ) -> Tuple[torch.Tensor, torch.Tensor, List[int], List[int]]:
        """Обрабатывает список примеров и формирует батч.

        Args:
            data: Список кортежей (waveform, sample_rate, utterance, ...) из датасета LibriSpeech,
                 где waveform - аудиосигнал [1, samples], utterance - текстовая транскрипция

        Returns:
            Кортеж из:
            - spectrograms: Тензор спектрограмм [batch_size, 1, max_time, n_mels]
            - labels: Тензор с токенизированными текстами [batch_size, max_label_len]
            - input_lengths: Список длин спектрограмм для каждого примера
            - label_lengths: Список длин текстовых последовательностей

        Raises:
            Exception: Если data_type не "train" или "test"

        Пример:
            >>> collate_fn = Collate(data_type="train")
            >>> batch = collate_fn(dataset_samples)
            >>> specs, labels, spec_lens, label_lens = batch
        """
        spectrograms = []
        labels = []
        input_lengths = []
        label_lengths = []

        for waveform, _, utterance, _, _, _ in data:
            # Обработка аудио
            if self.data_type == "train":
                spec = preprocess_audio_train(waveform)  # [TIME, CHANNELS]
            elif self.data_type == "test":
                spec = preprocess_audio_test(waveform)  # [TIME, CHANNELS]

            else:
                raise Exception("data_type should be train or test")

            if spec.dim() == 3:
    # Проверяем, есть ли лишенный размер в середине
                if spec.shape[1] == 1:
                  spec = spec.squeeze(1)  # Уберем размерность 1: [80, time]
                elif spec.shape[0] == 1:
                  spec = spec.squeeze(0)  # Другой вариант
    # Теперь spec 2D: [80, time]
                spec = spec.transpose(0, 1)  # [time, 80]
            elif spec.dim() == 2:
                spec = spec.transpose(0, 1)  # [time, n_mels]

            spectrograms.append(spec)

            label = torch.Tensor(tokenizer.text_to_indices(utterance.lower()))

            labels.append(label)
            input_lengths.append(spec.shape[0])
            label_lengths.append(len(label))

        # Упаковка в батч с паддингом
        spectrograms = nn.utils.rnn.pad_sequence(
            spectrograms, batch_first=True
        ) # [BATCH_SIZE, 1, TIME, CHANNELS]
        spectrograms = spectrograms.unsqueeze(1)
        labels = nn.utils.rnn.pad_sequence(labels, batch_first=True)

        return spectrograms, labels, input_lengths, label_lengths



In [40]:
class ASRModel(nn.Module):
    def __init__(self, n_mels: int, n_tokens: int):
        super().__init__()

        self.encoder = nn.Sequential(
            nn.Conv1d(n_mels, 128, kernel_size=5, stride=1, padding=2),
            nn.BatchNorm1d(128),
            nn.ReLU(),

            nn.Conv1d(128, 128, kernel_size=5, stride=1, padding=2),
            nn.BatchNorm1d(128),
            nn.ReLU(),

            nn.Conv1d(128, 256, kernel_size=5, stride=1, padding=2),
            nn.BatchNorm1d(256),
            nn.ReLU(),
        )

        self.classifier = nn.Sequential(
            nn.Linear(256, 256),
            nn.ReLU(),
            nn.Linear(256, n_tokens)
        )

    def forward(self, x: torch.Tensor, xlen: List[int]) -> Tuple[torch.Tensor, List[int]]:
        x = x.squeeze(1).transpose(1, 2)
        x = self.encoder(x)
        x = x.transpose(1, 2)
        logits = self.classifier(x)

        return logits, xlen


In [41]:
def train(
    model: nn.Module,
    device: str,
    train_loader: data.DataLoader,
    criterion: nn.Module,
    optimizer: torch.optim.Optimizer,
    scheduler,
    epoch: int,
) -> None:
    model.train()
    data_len = len(train_loader.dataset)

    for batch_idx, _data in tqdm(enumerate(train_loader), total=len(train_loader)):
        spectrograms, labels, input_lengths, label_lengths = _data
        spectrograms, labels = spectrograms.to(device), labels.to(device)
        outputs, output_lengths = model(spectrograms, input_lengths)
        outputs = outputs.transpose(0, 1)
        loss = criterion(outputs, labels, output_lengths, label_lengths)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        if scheduler is not None:
            scheduler.step()


        if batch_idx % 10 == 0 or batch_idx == data_len:
            print(
                "Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}".format(
                    epoch,
                    batch_idx * len(spectrograms),
                    data_len,
                    100.0 * batch_idx / len(train_loader),
                    loss.item(),
                )
            )


def test(
    model: nn.Module,
    device: str,
    test_loader: data.DataLoader,
    criterion: nn.Module,
    tokenizer: Tokenizer,
    epoch: int,
) -> None:
    print("Beginning eval...")
    model.eval()
    test_loss = 0
    test_cer, test_wer = [], []
    with torch.no_grad():
        for i, _data in tqdm(enumerate(test_loader), total=len(test_loader)):
            spectrograms, labels, input_lengths, label_lengths = _data
            spectrograms, labels = spectrograms.to(device), labels.to(device)

            outputs, output_lengths = model(spectrograms, input_lengths)
            outputs = outputs.transpose(0, 1)

            loss = criterion(outputs, labels, output_lengths, label_lengths)
            matrix = outputs.softmax(dim=-1)

            test_loss += loss.item() / len(test_loader)

            decoded_preds, decoded_targets = greedy_decoder(
                matrix.transpose(0, 1), input_lengths, labels, label_lengths, tokenizer
            )

            for j in range(len(decoded_preds)):
                test_cer.append(cer(decoded_targets[j], decoded_preds[j]))
                test_wer.append(wer(decoded_targets[j], decoded_preds[j]))

    avg_cer = sum(test_cer) / len(test_cer)
    avg_wer = sum(test_wer) / len(test_wer)
    print(
        "Epoch: {:d}, Test set: Average loss: {:.4f}, Average CER: {:4f} Average WER: {:.4f}\n".format(
            epoch, test_loss, avg_cer, avg_wer
        )
    )

In [16]:
BATCH_SIZE = 16
EPOCHS = 10

tokenizer = Tokenizer()

train_collate_fn = Collate(data_type="train")
test_collate_fn = Collate(data_type="test")

# Define Dataloyour training and test data loaders
kwargs = {"num_workers": 2, "pin_memory": True} if device == "cuda" else {}
train_loader = data.DataLoader(
    train_dataset,
    batch_size=BATCH_SIZE,
    shuffle=True,
    collate_fn=train_collate_fn,
    **kwargs,
)

kwargs = {"num_workers": 1, "pin_memory": True} if device == "cuda" else {}
test_loader = data.DataLoader(
    test_dataset,
    batch_size=BATCH_SIZE,
    shuffle=False,
    collate_fn=test_collate_fn,
    **kwargs,
)

n_mels = 80
n_tokens = len(tokenizer.char_map)
blank_id = tokenizer.char_map[BLANK_SYMBOL]
criterion = nn.CTCLoss(blank=blank_id, zero_infinity=True)
model = ASRModel(n_mels=n_mels, n_tokens=n_tokens).to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.9)


for epoch in range(1, EPOCHS + 1):
    train(model, device, train_loader, criterion, optimizer, scheduler, epoch)
    save_checkpoint(model, checkpoint_name="last_checkpoint.tar")
    test(model, device, test_loader, criterion, tokenizer, epoch)

save_checkpoint(model, checkpoint_name="last_checkpoint.tar")

  0%|                                          | 1/1784 [00:00<11:06,  2.67it/s]



  1%|▎                                        | 12/1784 [00:02<05:06,  5.77it/s]



  1%|▌                                        | 22/1784 [00:04<05:12,  5.63it/s]



  2%|▋                                        | 31/1784 [00:06<07:44,  3.77it/s]



  2%|▉                                        | 41/1784 [00:08<07:35,  3.83it/s]



  3%|█▏                                       | 52/1784 [00:11<06:37,  4.36it/s]



  3%|█▍                                       | 61/1784 [00:13<04:51,  5.90it/s]



  4%|█▋                                       | 72/1784 [00:15<05:34,  5.12it/s]



  5%|█▉                                       | 82/1784 [00:18<05:08,  5.51it/s]



  5%|██                                       | 91/1784 [00:20<06:55,  4.08it/s]



  6%|██▎                                     | 102/1784 [00:23<04:57,  5.65it/s]



  6%|██▌                                     | 112/1784 [00:25<05:29,  5.07it/s]



  7%|██▋                                     | 122/1784 [00:27<04:46,  5.81it/s]



  7%|██▉                                     | 132/1784 [00:29<04:31,  6.08it/s]



  8%|███▏                                    | 142/1784 [00:30<04:58,  5.51it/s]



  9%|███▍                                    | 152/1784 [00:32<04:22,  6.22it/s]



  9%|███▋                                    | 162/1784 [00:34<05:26,  4.97it/s]



 10%|███▊                                    | 172/1784 [00:35<03:49,  7.03it/s]



 10%|████                                    | 182/1784 [00:37<06:54,  3.87it/s]



 11%|████▎                                   | 191/1784 [00:39<06:51,  3.87it/s]



 11%|████▌                                   | 202/1784 [00:42<03:58,  6.65it/s]



 12%|████▊                                   | 212/1784 [00:44<04:02,  6.49it/s]



 12%|████▉                                   | 222/1784 [00:45<03:46,  6.89it/s]



 13%|█████▏                                  | 232/1784 [00:47<05:01,  5.14it/s]



 14%|█████▍                                  | 241/1784 [00:48<03:51,  6.66it/s]



 14%|█████▋                                  | 252/1784 [00:50<03:37,  7.04it/s]



 15%|█████▊                                  | 262/1784 [00:51<03:33,  7.14it/s]



 15%|██████                                  | 272/1784 [00:53<03:45,  6.71it/s]



 16%|██████▎                                 | 281/1784 [00:55<05:15,  4.76it/s]



 16%|██████▌                                 | 292/1784 [00:56<03:30,  7.09it/s]



 17%|██████▋                                 | 301/1784 [00:58<05:15,  4.71it/s]



 17%|██████▉                                 | 312/1784 [01:00<04:36,  5.33it/s]



 18%|███████▏                                | 322/1784 [01:02<04:21,  5.59it/s]



 19%|███████▍                                | 332/1784 [01:03<03:32,  6.83it/s]



 19%|███████▋                                | 342/1784 [01:05<03:21,  7.15it/s]



 20%|███████▉                                | 352/1784 [01:06<03:40,  6.49it/s]



 20%|████████                                | 362/1784 [01:08<03:19,  7.14it/s]



 21%|████████▎                               | 372/1784 [01:10<05:07,  4.60it/s]



 21%|████████▌                               | 382/1784 [01:11<03:22,  6.92it/s]



 22%|████████▊                               | 391/1784 [01:12<03:14,  7.17it/s]



 23%|█████████                               | 402/1784 [01:14<03:40,  6.28it/s]



 23%|█████████▏                              | 412/1784 [01:16<03:27,  6.62it/s]



 24%|█████████▍                              | 422/1784 [01:17<02:59,  7.60it/s]



 24%|█████████▋                              | 432/1784 [01:19<03:14,  6.96it/s]



 25%|█████████▉                              | 442/1784 [01:20<03:16,  6.83it/s]



 25%|██████████▏                             | 452/1784 [01:22<03:12,  6.93it/s]



 26%|██████████▎                             | 462/1784 [01:23<03:06,  7.07it/s]



 26%|██████████▌                             | 472/1784 [01:25<03:15,  6.72it/s]



 27%|██████████▊                             | 482/1784 [01:26<03:18,  6.55it/s]



 28%|███████████                             | 492/1784 [01:28<02:56,  7.31it/s]



 28%|███████████▎                            | 502/1784 [01:29<03:03,  7.01it/s]



 29%|███████████▍                            | 512/1784 [01:31<02:49,  7.51it/s]



 29%|███████████▋                            | 522/1784 [01:33<03:11,  6.58it/s]



 30%|███████████▉                            | 532/1784 [01:34<03:07,  6.69it/s]



 30%|████████████▏                           | 542/1784 [01:36<03:06,  6.67it/s]



 31%|████████████▍                           | 552/1784 [01:38<04:23,  4.68it/s]



 32%|████████████▌                           | 562/1784 [01:39<02:49,  7.22it/s]



 32%|████████████▊                           | 572/1784 [01:41<02:50,  7.11it/s]



 33%|█████████████                           | 582/1784 [01:42<03:41,  5.42it/s]



 33%|█████████████▎                          | 592/1784 [01:44<03:06,  6.41it/s]



 34%|█████████████▍                          | 602/1784 [01:46<03:44,  5.26it/s]



 34%|█████████████▋                          | 612/1784 [01:47<03:32,  5.51it/s]



 35%|█████████████▉                          | 622/1784 [01:49<03:34,  5.41it/s]



 35%|██████████████▏                         | 631/1784 [01:51<02:58,  6.45it/s]



 36%|██████████████▍                         | 642/1784 [01:52<02:42,  7.02it/s]



 37%|██████████████▌                         | 652/1784 [01:54<02:44,  6.89it/s]



 37%|██████████████▊                         | 662/1784 [01:55<02:41,  6.95it/s]



 38%|███████████████                         | 672/1784 [01:57<02:40,  6.94it/s]



 38%|███████████████▎                        | 682/1784 [01:58<02:33,  7.18it/s]



 39%|███████████████▌                        | 692/1784 [02:00<02:39,  6.83it/s]



 39%|███████████████▋                        | 702/1784 [02:02<03:50,  4.70it/s]



 40%|███████████████▉                        | 712/1784 [02:03<02:32,  7.01it/s]



 40%|████████████████▏                       | 722/1784 [02:05<02:52,  6.15it/s]



 41%|████████████████▍                       | 732/1784 [02:06<02:44,  6.41it/s]



 42%|████████████████▋                       | 742/1784 [02:08<02:38,  6.58it/s]



 42%|████████████████▊                       | 752/1784 [02:09<02:31,  6.81it/s]



 43%|█████████████████                       | 762/1784 [02:11<02:36,  6.52it/s]



 43%|█████████████████▎                      | 772/1784 [02:12<02:40,  6.30it/s]



 44%|█████████████████▌                      | 782/1784 [02:14<03:09,  5.30it/s]



 44%|█████████████████▊                      | 792/1784 [02:16<02:33,  6.45it/s]



 45%|█████████████████▉                      | 802/1784 [02:17<02:36,  6.27it/s]



 46%|██████████████████▏                     | 812/1784 [02:19<04:52,  3.32it/s]



 46%|██████████████████▍                     | 822/1784 [02:21<02:28,  6.49it/s]



 47%|██████████████████▋                     | 832/1784 [02:22<02:23,  6.64it/s]



 47%|██████████████████▉                     | 842/1784 [02:24<02:21,  6.64it/s]



 48%|███████████████████                     | 852/1784 [02:25<02:23,  6.52it/s]



 48%|███████████████████▎                    | 862/1784 [02:27<02:33,  6.02it/s]



 49%|███████████████████▌                    | 872/1784 [02:29<02:24,  6.32it/s]



 49%|███████████████████▊                    | 882/1784 [02:30<02:14,  6.72it/s]



 50%|████████████████████                    | 892/1784 [02:32<02:18,  6.45it/s]



 51%|████████████████████▏                   | 902/1784 [02:33<02:12,  6.64it/s]



 51%|████████████████████▍                   | 912/1784 [02:35<02:18,  6.30it/s]



 52%|████████████████████▋                   | 922/1784 [02:36<02:14,  6.41it/s]



 52%|████████████████████▉                   | 932/1784 [02:38<02:40,  5.31it/s]



 53%|█████████████████████                   | 942/1784 [02:40<02:18,  6.07it/s]



 53%|█████████████████████▎                  | 952/1784 [02:41<02:08,  6.48it/s]



 54%|█████████████████████▌                  | 962/1784 [02:43<02:41,  5.07it/s]



 54%|█████████████████████▊                  | 972/1784 [02:44<02:08,  6.32it/s]



 55%|██████████████████████                  | 982/1784 [02:46<02:10,  6.15it/s]



 56%|██████████████████████▏                 | 992/1784 [02:48<02:32,  5.19it/s]



 56%|█████████████████████▉                 | 1002/1784 [02:50<01:59,  6.53it/s]



 57%|██████████████████████                 | 1012/1784 [02:51<01:57,  6.57it/s]



 57%|██████████████████████▎                | 1022/1784 [02:53<02:29,  5.09it/s]



 58%|██████████████████████▌                | 1032/1784 [02:54<01:52,  6.71it/s]



 58%|██████████████████████▊                | 1042/1784 [02:56<01:51,  6.68it/s]



 59%|██████████████████████▉                | 1052/1784 [02:57<01:51,  6.56it/s]



 60%|███████████████████████▏               | 1062/1784 [02:59<02:15,  5.33it/s]



 60%|███████████████████████▍               | 1072/1784 [03:01<01:59,  5.98it/s]



 61%|███████████████████████▋               | 1081/1784 [03:02<01:54,  6.12it/s]



 61%|███████████████████████▊               | 1092/1784 [03:04<01:47,  6.42it/s]



 62%|████████████████████████               | 1102/1784 [03:06<01:55,  5.93it/s]



 62%|████████████████████████▎              | 1112/1784 [03:07<01:42,  6.56it/s]



 63%|████████████████████████▌              | 1122/1784 [03:09<01:45,  6.26it/s]



 63%|████████████████████████▋              | 1132/1784 [03:11<01:50,  5.89it/s]



 64%|████████████████████████▉              | 1142/1784 [03:12<01:42,  6.29it/s]



 65%|█████████████████████████▏             | 1152/1784 [03:14<01:40,  6.27it/s]



 65%|█████████████████████████▍             | 1162/1784 [03:16<01:34,  6.59it/s]



 66%|█████████████████████████▌             | 1172/1784 [03:17<01:42,  6.00it/s]



 66%|█████████████████████████▊             | 1182/1784 [03:19<01:30,  6.66it/s]



 67%|██████████████████████████             | 1192/1784 [03:20<01:33,  6.35it/s]



 67%|██████████████████████████▎            | 1202/1784 [03:22<01:26,  6.74it/s]



 68%|██████████████████████████▍            | 1212/1784 [03:24<01:25,  6.68it/s]



 68%|██████████████████████████▋            | 1222/1784 [03:25<01:30,  6.21it/s]



 69%|██████████████████████████▉            | 1232/1784 [03:27<01:27,  6.28it/s]



 70%|███████████████████████████▏           | 1242/1784 [03:28<01:22,  6.56it/s]



 70%|███████████████████████████▎           | 1252/1784 [03:30<01:23,  6.36it/s]



 71%|███████████████████████████▌           | 1262/1784 [03:32<01:26,  6.06it/s]



 71%|███████████████████████████▊           | 1272/1784 [03:33<01:42,  5.02it/s]



 72%|████████████████████████████           | 1282/1784 [03:35<01:32,  5.41it/s]



 72%|████████████████████████████▏          | 1292/1784 [03:37<01:19,  6.19it/s]



 73%|████████████████████████████▍          | 1302/1784 [03:38<01:11,  6.70it/s]



 74%|████████████████████████████▋          | 1312/1784 [03:40<01:13,  6.43it/s]



 74%|████████████████████████████▉          | 1321/1784 [03:41<01:12,  6.36it/s]



 75%|█████████████████████████████          | 1332/1784 [03:43<01:12,  6.26it/s]



 75%|█████████████████████████████▎         | 1342/1784 [03:45<01:08,  6.41it/s]



 76%|█████████████████████████████▌         | 1352/1784 [03:47<01:13,  5.89it/s]



 76%|█████████████████████████████▊         | 1362/1784 [03:48<01:05,  6.41it/s]



 77%|█████████████████████████████▉         | 1372/1784 [03:50<01:06,  6.24it/s]



 77%|██████████████████████████████▏        | 1382/1784 [03:51<01:03,  6.29it/s]



 78%|██████████████████████████████▍        | 1392/1784 [03:54<01:15,  5.19it/s]



 79%|██████████████████████████████▋        | 1402/1784 [03:55<01:02,  6.09it/s]



 79%|██████████████████████████████▊        | 1412/1784 [03:57<01:00,  6.10it/s]



 80%|███████████████████████████████        | 1422/1784 [03:58<00:59,  6.13it/s]



 80%|███████████████████████████████▎       | 1432/1784 [04:00<00:59,  5.88it/s]



 81%|███████████████████████████████▌       | 1442/1784 [04:02<00:53,  6.39it/s]



 81%|███████████████████████████████▋       | 1452/1784 [04:03<00:53,  6.18it/s]



 82%|███████████████████████████████▉       | 1462/1784 [04:05<00:53,  6.03it/s]



 83%|████████████████████████████████▏      | 1472/1784 [04:06<00:49,  6.25it/s]



 83%|████████████████████████████████▍      | 1482/1784 [04:08<00:49,  6.08it/s]



 84%|████████████████████████████████▌      | 1492/1784 [04:10<00:46,  6.34it/s]



 84%|████████████████████████████████▊      | 1502/1784 [04:11<00:46,  6.09it/s]



 85%|█████████████████████████████████      | 1512/1784 [04:13<00:47,  5.76it/s]



 85%|█████████████████████████████████▎     | 1522/1784 [04:15<00:49,  5.26it/s]



 86%|█████████████████████████████████▍     | 1532/1784 [04:17<00:53,  4.72it/s]



 86%|█████████████████████████████████▋     | 1542/1784 [04:18<00:39,  6.12it/s]



 87%|█████████████████████████████████▉     | 1552/1784 [04:20<00:41,  5.60it/s]



 88%|██████████████████████████████████▏    | 1562/1784 [04:22<00:37,  5.95it/s]



 88%|██████████████████████████████████▎    | 1572/1784 [04:24<00:37,  5.65it/s]



 89%|██████████████████████████████████▌    | 1582/1784 [04:25<00:32,  6.17it/s]



 89%|██████████████████████████████████▊    | 1592/1784 [04:27<00:31,  6.08it/s]



 90%|███████████████████████████████████    | 1602/1784 [04:28<00:29,  6.21it/s]



 90%|███████████████████████████████████▏   | 1612/1784 [04:30<00:29,  5.78it/s]



 91%|███████████████████████████████████▍   | 1622/1784 [04:32<00:27,  5.92it/s]



 91%|███████████████████████████████████▋   | 1632/1784 [04:33<00:24,  6.25it/s]



 92%|███████████████████████████████████▉   | 1642/1784 [04:35<00:25,  5.50it/s]



 93%|████████████████████████████████████   | 1652/1784 [04:37<00:22,  5.96it/s]



 93%|████████████████████████████████████▎  | 1662/1784 [04:39<00:23,  5.11it/s]



 94%|████████████████████████████████████▌  | 1671/1784 [04:40<00:23,  4.89it/s]



 94%|████████████████████████████████████▊  | 1682/1784 [04:42<00:15,  6.61it/s]



 95%|████████████████████████████████████▉  | 1692/1784 [04:44<00:15,  5.92it/s]



 95%|█████████████████████████████████████▏ | 1702/1784 [04:46<00:14,  5.75it/s]



 96%|█████████████████████████████████████▍ | 1712/1784 [04:47<00:12,  5.70it/s]



 97%|█████████████████████████████████████▋ | 1722/1784 [04:49<00:10,  6.06it/s]



 97%|█████████████████████████████████████▊ | 1732/1784 [04:50<00:08,  6.23it/s]



 98%|██████████████████████████████████████ | 1742/1784 [04:52<00:06,  6.14it/s]



 98%|██████████████████████████████████████▎| 1752/1784 [04:54<00:05,  6.15it/s]



 99%|██████████████████████████████████████▌| 1762/1784 [04:55<00:03,  6.03it/s]



 99%|██████████████████████████████████████▋| 1772/1784 [04:57<00:01,  6.13it/s]



100%|██████████████████████████████████████▉| 1781/1784 [04:58<00:00,  6.00it/s]



100%|███████████████████████████████████████| 1784/1784 [04:59<00:00,  5.95it/s]


Beginning eval...


100%|█████████████████████████████████████████| 164/164 [00:18<00:00,  8.64it/s]


Epoch: 1, Test set: Average loss: 5.0778, Average CER: 0.927460 Average WER: 1.0054



  0%|                                          | 1/1784 [00:00<05:44,  5.17it/s]



  1%|▎                                        | 12/1784 [00:01<04:11,  7.04it/s]



  1%|▌                                        | 22/1784 [00:03<04:22,  6.71it/s]



  2%|▋                                        | 32/1784 [00:04<04:08,  7.06it/s]



  2%|▉                                        | 42/1784 [00:06<04:44,  6.13it/s]



  3%|█▏                                       | 52/1784 [00:07<04:25,  6.52it/s]



  3%|█▍                                       | 62/1784 [00:09<04:11,  6.84it/s]



  4%|█▋                                       | 72/1784 [00:10<04:46,  5.97it/s]



  5%|█▉                                       | 82/1784 [00:12<05:02,  5.62it/s]



  5%|██                                       | 92/1784 [00:14<04:39,  6.05it/s]



  6%|██▎                                     | 102/1784 [00:15<04:46,  5.87it/s]



  6%|██▌                                     | 112/1784 [00:17<04:30,  6.18it/s]



  7%|██▋                                     | 122/1784 [00:19<04:43,  5.86it/s]



  7%|██▉                                     | 132/1784 [00:20<04:34,  6.02it/s]



  8%|███▏                                    | 142/1784 [00:22<04:31,  6.05it/s]



  9%|███▍                                    | 152/1784 [00:24<04:32,  5.99it/s]



  9%|███▋                                    | 162/1784 [00:25<04:25,  6.11it/s]



 10%|███▊                                    | 172/1784 [00:27<04:28,  6.01it/s]



 10%|████                                    | 182/1784 [00:29<04:21,  6.12it/s]



 11%|████▎                                   | 192/1784 [00:30<04:23,  6.04it/s]



 11%|████▌                                   | 202/1784 [00:32<04:18,  6.12it/s]



 12%|████▊                                   | 212/1784 [00:33<04:24,  5.95it/s]



 12%|████▉                                   | 222/1784 [00:35<04:27,  5.84it/s]



 13%|█████▏                                  | 232/1784 [00:37<04:19,  5.98it/s]



 14%|█████▍                                  | 242/1784 [00:38<04:14,  6.06it/s]



 14%|█████▋                                  | 252/1784 [00:40<04:46,  5.35it/s]



 15%|█████▊                                  | 262/1784 [00:42<04:54,  5.16it/s]



 15%|██████                                  | 272/1784 [00:44<04:43,  5.34it/s]



 16%|██████▎                                 | 282/1784 [00:46<04:50,  5.17it/s]



 16%|██████▌                                 | 292/1784 [00:48<04:40,  5.32it/s]



 17%|██████▊                                 | 302/1784 [00:49<04:46,  5.17it/s]



 17%|██████▉                                 | 312/1784 [00:51<04:42,  5.21it/s]



 18%|███████▏                                | 322/1784 [00:53<04:24,  5.53it/s]



 19%|███████▍                                | 332/1784 [00:55<04:36,  5.25it/s]



 19%|███████▋                                | 342/1784 [00:57<04:33,  5.27it/s]



 20%|███████▉                                | 352/1784 [00:59<04:39,  5.11it/s]



 20%|████████                                | 362/1784 [01:01<04:21,  5.44it/s]



 21%|████████▎                               | 372/1784 [01:02<03:35,  6.54it/s]



 21%|████████▌                               | 382/1784 [01:04<04:44,  4.93it/s]



 22%|████████▊                               | 392/1784 [01:06<03:49,  6.06it/s]



 23%|█████████                               | 402/1784 [01:07<03:38,  6.33it/s]



 23%|█████████▏                              | 412/1784 [01:09<03:54,  5.86it/s]



 24%|█████████▍                              | 422/1784 [01:11<03:49,  5.95it/s]



 24%|█████████▋                              | 432/1784 [01:13<03:48,  5.93it/s]



 25%|█████████▉                              | 442/1784 [01:14<03:52,  5.76it/s]



 25%|██████████▏                             | 452/1784 [01:16<03:47,  5.85it/s]



 26%|██████████▎                             | 462/1784 [01:18<04:05,  5.38it/s]



 26%|██████████▌                             | 472/1784 [01:19<03:53,  5.63it/s]



 27%|██████████▊                             | 482/1784 [01:21<03:41,  5.88it/s]



 28%|███████████                             | 492/1784 [01:23<04:19,  4.98it/s]



 28%|███████████▎                            | 502/1784 [01:25<03:33,  6.01it/s]



 29%|███████████▍                            | 512/1784 [01:26<03:39,  5.79it/s]



 29%|███████████▋                            | 522/1784 [01:28<03:23,  6.19it/s]



 30%|███████████▉                            | 532/1784 [01:30<05:02,  4.14it/s]



 30%|████████████▏                           | 542/1784 [01:32<03:53,  5.31it/s]



 31%|████████████▍                           | 552/1784 [01:34<03:53,  5.28it/s]



 32%|████████████▌                           | 562/1784 [01:36<04:02,  5.04it/s]



 32%|████████████▊                           | 572/1784 [01:38<03:57,  5.10it/s]



 33%|█████████████                           | 582/1784 [01:40<03:53,  5.15it/s]



 33%|█████████████▎                          | 592/1784 [01:42<04:08,  4.79it/s]



 34%|█████████████▍                          | 602/1784 [01:44<04:05,  4.82it/s]



 34%|█████████████▋                          | 612/1784 [01:46<04:11,  4.67it/s]



 35%|█████████████▉                          | 622/1784 [01:48<04:18,  4.49it/s]



 35%|██████████████▏                         | 631/1784 [01:50<03:59,  4.82it/s]



 36%|██████████████▍                         | 642/1784 [01:52<03:08,  6.07it/s]



 37%|██████████████▌                         | 652/1784 [01:53<03:13,  5.85it/s]



 37%|██████████████▊                         | 662/1784 [01:55<03:30,  5.33it/s]



 38%|███████████████                         | 672/1784 [01:57<03:24,  5.43it/s]



 38%|███████████████▎                        | 681/1784 [01:59<03:35,  5.12it/s]



 39%|███████████████▌                        | 692/1784 [02:01<03:43,  4.88it/s]



 39%|███████████████▋                        | 702/1784 [02:03<03:35,  5.01it/s]



 40%|███████████████▉                        | 712/1784 [02:05<04:02,  4.43it/s]



 40%|████████████████▏                       | 722/1784 [02:07<03:17,  5.37it/s]



 41%|████████████████▍                       | 732/1784 [02:09<03:19,  5.27it/s]



 42%|████████████████▋                       | 742/1784 [02:11<03:20,  5.19it/s]



 42%|████████████████▊                       | 752/1784 [02:12<03:04,  5.60it/s]



 43%|█████████████████                       | 762/1784 [02:14<03:05,  5.50it/s]



 43%|█████████████████▎                      | 772/1784 [02:16<02:56,  5.72it/s]



 44%|█████████████████▌                      | 782/1784 [02:18<02:52,  5.81it/s]



 44%|█████████████████▊                      | 792/1784 [02:19<02:38,  6.26it/s]



 45%|█████████████████▉                      | 802/1784 [02:21<02:43,  6.02it/s]



 45%|██████████████████▏                     | 811/1784 [02:23<04:13,  3.84it/s]



 46%|██████████████████▍                     | 822/1784 [02:25<03:25,  4.68it/s]



 47%|██████████████████▋                     | 832/1784 [02:27<02:29,  6.36it/s]



 47%|██████████████████▉                     | 842/1784 [02:29<02:32,  6.17it/s]



 48%|███████████████████                     | 852/1784 [02:30<02:41,  5.78it/s]



 48%|███████████████████▎                    | 862/1784 [02:32<02:35,  5.93it/s]



 49%|███████████████████▌                    | 872/1784 [02:34<02:30,  6.08it/s]



 49%|███████████████████▊                    | 881/1784 [02:35<02:40,  5.63it/s]



 50%|████████████████████                    | 892/1784 [02:37<02:20,  6.34it/s]



 51%|████████████████████▏                   | 902/1784 [02:39<02:30,  5.87it/s]



 51%|████████████████████▍                   | 912/1784 [02:40<02:30,  5.79it/s]



 52%|████████████████████▋                   | 922/1784 [02:42<02:21,  6.08it/s]



 52%|████████████████████▉                   | 932/1784 [02:44<02:28,  5.72it/s]



 53%|█████████████████████                   | 942/1784 [02:45<02:20,  5.98it/s]



 53%|█████████████████████▎                  | 951/1784 [02:47<02:20,  5.94it/s]



 54%|█████████████████████▌                  | 962/1784 [02:49<02:17,  6.00it/s]



 54%|█████████████████████▊                  | 972/1784 [02:50<02:17,  5.91it/s]



 55%|██████████████████████                  | 982/1784 [02:52<02:15,  5.90it/s]



 56%|██████████████████████▏                 | 992/1784 [02:54<02:08,  6.18it/s]



 56%|█████████████████████▉                 | 1002/1784 [02:55<02:08,  6.07it/s]



 57%|██████████████████████                 | 1012/1784 [02:57<02:07,  6.05it/s]



 57%|██████████████████████▎                | 1022/1784 [02:58<02:07,  5.99it/s]



 58%|██████████████████████▌                | 1032/1784 [03:00<02:06,  5.95it/s]



 58%|██████████████████████▊                | 1042/1784 [03:02<01:59,  6.18it/s]



 59%|██████████████████████▉                | 1052/1784 [03:03<02:02,  5.97it/s]



 60%|███████████████████████▏               | 1062/1784 [03:05<02:02,  5.88it/s]



 60%|███████████████████████▍               | 1072/1784 [03:07<01:57,  6.05it/s]



 61%|███████████████████████▋               | 1082/1784 [03:08<02:06,  5.53it/s]



 61%|███████████████████████▊               | 1092/1784 [03:10<02:09,  5.35it/s]



 62%|████████████████████████               | 1102/1784 [03:12<02:09,  5.28it/s]



 62%|████████████████████████▎              | 1112/1784 [03:14<01:56,  5.75it/s]



 63%|████████████████████████▌              | 1122/1784 [03:15<01:49,  6.03it/s]



 63%|████████████████████████▋              | 1132/1784 [03:17<01:53,  5.75it/s]



 64%|████████████████████████▉              | 1142/1784 [03:19<01:43,  6.21it/s]



 65%|█████████████████████████▏             | 1152/1784 [03:20<01:41,  6.25it/s]



 65%|█████████████████████████▍             | 1162/1784 [03:22<01:40,  6.16it/s]



 66%|█████████████████████████▌             | 1172/1784 [03:23<01:46,  5.74it/s]



 66%|█████████████████████████▊             | 1182/1784 [03:25<01:37,  6.17it/s]



 67%|██████████████████████████             | 1192/1784 [03:27<01:33,  6.35it/s]



 67%|██████████████████████████▎            | 1202/1784 [03:28<01:36,  6.03it/s]



 68%|██████████████████████████▍            | 1212/1784 [03:30<01:30,  6.31it/s]



 68%|██████████████████████████▋            | 1222/1784 [03:31<01:34,  5.95it/s]



 69%|██████████████████████████▉            | 1232/1784 [03:33<01:30,  6.13it/s]



 70%|███████████████████████████▏           | 1242/1784 [03:35<01:40,  5.40it/s]



 70%|███████████████████████████▎           | 1252/1784 [03:36<01:24,  6.26it/s]



 71%|███████████████████████████▌           | 1262/1784 [03:38<01:29,  5.86it/s]



 71%|███████████████████████████▊           | 1272/1784 [03:40<01:24,  6.04it/s]



 72%|████████████████████████████           | 1282/1784 [03:41<01:24,  5.92it/s]



 72%|████████████████████████████▏          | 1292/1784 [03:43<01:23,  5.86it/s]



 73%|████████████████████████████▍          | 1302/1784 [03:45<01:20,  6.01it/s]



 74%|████████████████████████████▋          | 1312/1784 [03:46<01:14,  6.30it/s]



 74%|████████████████████████████▉          | 1322/1784 [03:48<01:18,  5.88it/s]



 75%|█████████████████████████████          | 1332/1784 [03:50<01:16,  5.92it/s]



 75%|█████████████████████████████▎         | 1342/1784 [03:51<01:12,  6.10it/s]



 76%|█████████████████████████████▌         | 1352/1784 [03:53<01:12,  5.98it/s]



 76%|█████████████████████████████▊         | 1362/1784 [03:55<01:10,  6.02it/s]



 77%|█████████████████████████████▉         | 1372/1784 [03:56<01:15,  5.43it/s]



 77%|██████████████████████████████▏        | 1382/1784 [03:58<01:16,  5.25it/s]



 78%|██████████████████████████████▍        | 1392/1784 [04:00<01:14,  5.25it/s]



 79%|██████████████████████████████▋        | 1402/1784 [04:02<01:12,  5.25it/s]



 79%|██████████████████████████████▊        | 1412/1784 [04:04<01:08,  5.40it/s]



 80%|███████████████████████████████        | 1422/1784 [04:06<01:09,  5.24it/s]



 80%|███████████████████████████████▎       | 1432/1784 [04:07<01:07,  5.24it/s]



 81%|███████████████████████████████▌       | 1442/1784 [04:09<01:08,  5.03it/s]



 81%|███████████████████████████████▋       | 1452/1784 [04:11<01:02,  5.33it/s]



 82%|███████████████████████████████▉       | 1462/1784 [04:13<00:59,  5.39it/s]



 83%|████████████████████████████████▏      | 1472/1784 [04:15<00:57,  5.45it/s]



 83%|████████████████████████████████▍      | 1482/1784 [04:17<00:55,  5.44it/s]



 84%|████████████████████████████████▌      | 1492/1784 [04:19<01:15,  3.86it/s]



 84%|████████████████████████████████▊      | 1502/1784 [04:21<00:57,  4.92it/s]



 85%|█████████████████████████████████      | 1512/1784 [04:23<00:58,  4.68it/s]



 85%|█████████████████████████████████▎     | 1522/1784 [04:25<00:55,  4.73it/s]



 86%|█████████████████████████████████▍     | 1531/1784 [04:27<00:51,  4.91it/s]



 86%|█████████████████████████████████▋     | 1542/1784 [04:29<00:48,  4.98it/s]



 87%|█████████████████████████████████▉     | 1552/1784 [04:31<00:43,  5.32it/s]



 88%|██████████████████████████████████▏    | 1562/1784 [04:33<00:37,  5.94it/s]



 88%|██████████████████████████████████▎    | 1572/1784 [04:34<00:36,  5.86it/s]



 89%|██████████████████████████████████▌    | 1582/1784 [04:36<00:34,  5.87it/s]



 89%|██████████████████████████████████▊    | 1592/1784 [04:38<00:30,  6.21it/s]



 90%|███████████████████████████████████    | 1602/1784 [04:39<00:30,  5.95it/s]



 90%|███████████████████████████████████▏   | 1612/1784 [04:41<00:28,  5.98it/s]



 91%|███████████████████████████████████▍   | 1622/1784 [04:43<00:26,  6.09it/s]



 91%|███████████████████████████████████▋   | 1632/1784 [04:45<00:25,  6.01it/s]



 92%|███████████████████████████████████▉   | 1642/1784 [04:46<00:22,  6.35it/s]



 93%|████████████████████████████████████   | 1652/1784 [04:48<00:22,  5.92it/s]



 93%|████████████████████████████████████▎  | 1662/1784 [04:49<00:21,  5.70it/s]



 94%|████████████████████████████████████▌  | 1672/1784 [04:51<00:24,  4.50it/s]



 94%|████████████████████████████████████▊  | 1682/1784 [04:53<00:16,  6.11it/s]



 95%|████████████████████████████████████▉  | 1692/1784 [04:55<00:15,  5.89it/s]



 95%|█████████████████████████████████████▏ | 1702/1784 [04:56<00:13,  6.09it/s]



 96%|█████████████████████████████████████▍ | 1712/1784 [04:58<00:12,  5.98it/s]



 97%|█████████████████████████████████████▋ | 1722/1784 [05:00<00:10,  6.02it/s]



 97%|█████████████████████████████████████▊ | 1732/1784 [05:01<00:08,  6.09it/s]



 98%|██████████████████████████████████████ | 1742/1784 [05:03<00:06,  6.01it/s]



 98%|██████████████████████████████████████▎| 1752/1784 [05:05<00:05,  6.03it/s]



 99%|██████████████████████████████████████▌| 1762/1784 [05:06<00:03,  5.97it/s]



 99%|██████████████████████████████████████▋| 1772/1784 [05:08<00:02,  5.88it/s]



100%|██████████████████████████████████████▉| 1782/1784 [05:09<00:00,  6.05it/s]



100%|███████████████████████████████████████| 1784/1784 [05:10<00:00,  5.74it/s]


Beginning eval...


100%|█████████████████████████████████████████| 164/164 [00:12<00:00, 13.56it/s]


Epoch: 2, Test set: Average loss: 5.0214, Average CER: 0.931364 Average WER: 1.0052



  0%|                                          | 1/1784 [00:00<04:43,  6.28it/s]



  1%|▎                                        | 12/1784 [00:01<05:13,  5.66it/s]



  1%|▌                                        | 22/1784 [00:03<05:13,  5.62it/s]



  2%|▋                                        | 32/1784 [00:05<04:54,  5.95it/s]



  2%|▉                                        | 42/1784 [00:07<05:58,  4.86it/s]



  3%|█▏                                       | 52/1784 [00:08<05:02,  5.73it/s]



  3%|█▍                                       | 62/1784 [00:10<05:19,  5.39it/s]



  4%|█▋                                       | 72/1784 [00:12<05:23,  5.29it/s]



  5%|█▉                                       | 82/1784 [00:14<05:13,  5.43it/s]



  5%|██                                       | 92/1784 [00:16<05:16,  5.35it/s]



  6%|██▎                                     | 102/1784 [00:18<05:16,  5.31it/s]



  6%|██▌                                     | 112/1784 [00:19<05:13,  5.34it/s]



  7%|██▋                                     | 122/1784 [00:21<05:13,  5.31it/s]



  7%|██▉                                     | 132/1784 [00:23<05:02,  5.46it/s]



  8%|███▏                                    | 142/1784 [00:25<05:18,  5.15it/s]



  9%|███▍                                    | 152/1784 [00:27<05:05,  5.35it/s]



  9%|███▋                                    | 162/1784 [00:29<05:08,  5.25it/s]



 10%|███▊                                    | 172/1784 [00:31<05:09,  5.21it/s]



 10%|████                                    | 182/1784 [00:32<05:06,  5.22it/s]



 11%|████▎                                   | 192/1784 [00:34<05:00,  5.29it/s]



 11%|████▌                                   | 202/1784 [00:36<04:59,  5.27it/s]



 12%|████▊                                   | 212/1784 [00:38<04:53,  5.35it/s]



 12%|████▉                                   | 222/1784 [00:40<05:01,  5.18it/s]



 13%|█████▏                                  | 232/1784 [00:42<04:46,  5.42it/s]



 14%|█████▍                                  | 242/1784 [00:44<04:53,  5.26it/s]



 14%|█████▋                                  | 252/1784 [00:45<04:43,  5.40it/s]



 15%|█████▊                                  | 262/1784 [00:47<04:49,  5.25it/s]



 15%|██████                                  | 272/1784 [00:49<04:54,  5.14it/s]



 16%|██████▎                                 | 282/1784 [00:51<04:44,  5.29it/s]



 16%|██████▌                                 | 292/1784 [00:53<04:31,  5.50it/s]



 17%|██████▊                                 | 302/1784 [00:55<04:43,  5.23it/s]



 17%|██████▉                                 | 312/1784 [00:57<04:38,  5.29it/s]



 18%|███████▏                                | 322/1784 [00:59<04:49,  5.05it/s]



 19%|███████▍                                | 332/1784 [01:00<04:37,  5.24it/s]



 19%|███████▋                                | 342/1784 [01:02<04:27,  5.40it/s]



 20%|███████▉                                | 352/1784 [01:04<04:40,  5.11it/s]



 20%|████████                                | 362/1784 [01:06<04:26,  5.34it/s]



 21%|████████▎                               | 372/1784 [01:08<04:28,  5.26it/s]



 21%|████████▌                               | 382/1784 [01:10<03:39,  6.38it/s]



 22%|████████▊                               | 392/1784 [01:11<04:00,  5.79it/s]



 23%|█████████                               | 402/1784 [01:13<03:54,  5.90it/s]



 23%|█████████▏                              | 412/1784 [01:15<03:55,  5.83it/s]



 24%|█████████▍                              | 422/1784 [01:16<03:46,  6.02it/s]



 24%|█████████▋                              | 432/1784 [01:18<03:58,  5.67it/s]



 25%|█████████▉                              | 442/1784 [01:20<03:35,  6.23it/s]



 25%|██████████▏                             | 452/1784 [01:21<03:44,  5.93it/s]



 26%|██████████▎                             | 462/1784 [01:23<03:41,  5.98it/s]



 26%|██████████▌                             | 472/1784 [01:25<03:38,  6.01it/s]



 27%|██████████▊                             | 482/1784 [01:26<03:41,  5.88it/s]



 28%|███████████                             | 492/1784 [01:28<03:38,  5.92it/s]



 28%|███████████▎                            | 502/1784 [01:30<04:00,  5.33it/s]



 29%|███████████▍                            | 512/1784 [01:32<03:59,  5.32it/s]



 29%|███████████▋                            | 522/1784 [01:34<04:46,  4.40it/s]



 30%|███████████▉                            | 532/1784 [01:35<03:25,  6.09it/s]



 30%|████████████▏                           | 542/1784 [01:37<03:40,  5.64it/s]



 31%|████████████▍                           | 552/1784 [01:39<03:26,  5.96it/s]



 32%|████████████▌                           | 562/1784 [01:41<04:12,  4.84it/s]



 32%|████████████▊                           | 572/1784 [01:42<03:24,  5.92it/s]



 33%|█████████████                           | 582/1784 [01:44<03:16,  6.10it/s]



 33%|█████████████▎                          | 592/1784 [01:46<03:20,  5.93it/s]



 34%|█████████████▍                          | 602/1784 [01:47<03:21,  5.85it/s]



 34%|█████████████▋                          | 612/1784 [01:49<03:17,  5.93it/s]



 35%|█████████████▉                          | 622/1784 [01:51<03:14,  5.98it/s]



 35%|██████████████▏                         | 632/1784 [01:52<03:11,  6.01it/s]



 36%|██████████████▍                         | 642/1784 [01:54<03:14,  5.87it/s]



 37%|██████████████▌                         | 652/1784 [01:56<03:09,  5.97it/s]



 37%|██████████████▊                         | 662/1784 [01:57<03:06,  6.02it/s]



 38%|███████████████                         | 672/1784 [01:59<03:04,  6.01it/s]



 38%|███████████████▎                        | 682/1784 [02:01<03:47,  4.85it/s]



 39%|███████████████▌                        | 692/1784 [02:03<03:20,  5.44it/s]



 39%|███████████████▋                        | 702/1784 [02:05<03:28,  5.20it/s]



 40%|███████████████▉                        | 712/1784 [02:07<03:27,  5.18it/s]



 40%|████████████████▏                       | 722/1784 [02:08<03:25,  5.18it/s]



 41%|████████████████▍                       | 732/1784 [02:10<03:20,  5.24it/s]



 42%|████████████████▋                       | 742/1784 [02:12<03:14,  5.36it/s]



 42%|████████████████▊                       | 752/1784 [02:14<03:18,  5.19it/s]



 43%|█████████████████                       | 762/1784 [02:16<03:14,  5.25it/s]



 43%|█████████████████▎                      | 772/1784 [02:18<03:12,  5.26it/s]



 44%|█████████████████▌                      | 782/1784 [02:20<03:05,  5.41it/s]



 44%|█████████████████▊                      | 792/1784 [02:21<03:08,  5.25it/s]



 45%|█████████████████▉                      | 802/1784 [02:23<03:07,  5.24it/s]



 46%|██████████████████▏                     | 812/1784 [02:25<03:05,  5.25it/s]



 46%|██████████████████▍                     | 822/1784 [02:27<03:00,  5.33it/s]



 47%|██████████████████▋                     | 832/1784 [02:29<03:05,  5.13it/s]



 47%|██████████████████▉                     | 842/1784 [02:31<03:03,  5.13it/s]



 48%|███████████████████                     | 852/1784 [02:33<02:55,  5.32it/s]



 48%|███████████████████▎                    | 862/1784 [02:35<03:00,  5.11it/s]



 49%|███████████████████▌                    | 872/1784 [02:37<02:59,  5.09it/s]



 49%|███████████████████▊                    | 882/1784 [02:38<02:42,  5.55it/s]



 50%|████████████████████                    | 892/1784 [02:40<02:56,  5.07it/s]



 51%|████████████████████▏                   | 902/1784 [02:42<02:51,  5.15it/s]



 51%|████████████████████▍                   | 912/1784 [02:44<02:40,  5.43it/s]



 52%|████████████████████▋                   | 922/1784 [02:46<02:41,  5.34it/s]



 52%|████████████████████▉                   | 932/1784 [02:48<02:39,  5.34it/s]



 53%|█████████████████████                   | 942/1784 [02:50<02:42,  5.20it/s]



 53%|█████████████████████▎                  | 952/1784 [02:52<02:33,  5.44it/s]



 54%|█████████████████████▌                  | 962/1784 [02:53<02:33,  5.36it/s]



 54%|█████████████████████▊                  | 972/1784 [02:55<02:33,  5.28it/s]



 55%|██████████████████████                  | 982/1784 [02:57<02:17,  5.85it/s]



 56%|██████████████████████▏                 | 992/1784 [02:59<02:24,  5.49it/s]



 56%|█████████████████████▉                 | 1002/1784 [03:00<02:14,  5.82it/s]



 57%|██████████████████████                 | 1012/1784 [03:02<02:11,  5.89it/s]



 57%|██████████████████████▎                | 1022/1784 [03:04<02:05,  6.08it/s]



 58%|██████████████████████▌                | 1032/1784 [03:05<02:03,  6.07it/s]



 58%|██████████████████████▊                | 1042/1784 [03:07<02:05,  5.91it/s]



 59%|██████████████████████▉                | 1052/1784 [03:09<02:03,  5.91it/s]



 60%|███████████████████████▏               | 1062/1784 [03:10<02:01,  5.96it/s]



 60%|███████████████████████▍               | 1072/1784 [03:12<02:32,  4.65it/s]



 61%|███████████████████████▋               | 1082/1784 [03:14<01:54,  6.12it/s]



 61%|███████████████████████▊               | 1092/1784 [03:16<01:59,  5.80it/s]



 62%|████████████████████████               | 1102/1784 [03:17<02:11,  5.19it/s]



 62%|████████████████████████▎              | 1112/1784 [03:19<02:05,  5.34it/s]



 63%|████████████████████████▌              | 1122/1784 [03:21<02:03,  5.38it/s]



 63%|████████████████████████▋              | 1132/1784 [03:23<02:00,  5.39it/s]



 64%|████████████████████████▉              | 1142/1784 [03:25<02:00,  5.35it/s]



 65%|█████████████████████████▏             | 1152/1784 [03:27<02:01,  5.20it/s]



 65%|█████████████████████████▍             | 1162/1784 [03:29<02:00,  5.16it/s]



 66%|█████████████████████████▌             | 1172/1784 [03:31<01:57,  5.22it/s]



 66%|█████████████████████████▊             | 1182/1784 [03:32<01:53,  5.30it/s]



 67%|██████████████████████████             | 1192/1784 [03:34<01:52,  5.28it/s]



 67%|██████████████████████████▎            | 1202/1784 [03:36<01:49,  5.34it/s]



 68%|██████████████████████████▍            | 1212/1784 [03:38<01:51,  5.15it/s]



 68%|██████████████████████████▋            | 1221/1784 [03:40<01:56,  4.82it/s]



 69%|██████████████████████████▉            | 1232/1784 [03:42<01:44,  5.30it/s]



 70%|███████████████████████████▏           | 1242/1784 [03:44<01:44,  5.17it/s]



 70%|███████████████████████████▎           | 1252/1784 [03:46<01:41,  5.24it/s]



 71%|███████████████████████████▌           | 1262/1784 [03:48<01:42,  5.10it/s]



 71%|███████████████████████████▊           | 1272/1784 [03:49<01:38,  5.21it/s]



 72%|████████████████████████████           | 1282/1784 [03:51<01:36,  5.23it/s]



 72%|████████████████████████████▏          | 1292/1784 [03:53<01:33,  5.26it/s]



 73%|████████████████████████████▍          | 1302/1784 [03:55<01:33,  5.13it/s]



 74%|████████████████████████████▋          | 1312/1784 [03:57<01:30,  5.20it/s]



 74%|████████████████████████████▉          | 1322/1784 [03:59<01:27,  5.25it/s]



 75%|█████████████████████████████          | 1332/1784 [04:01<01:26,  5.22it/s]



 75%|█████████████████████████████▎         | 1342/1784 [04:03<01:22,  5.38it/s]



 76%|█████████████████████████████▌         | 1352/1784 [04:05<01:23,  5.15it/s]



 76%|█████████████████████████████▊         | 1362/1784 [04:06<01:18,  5.37it/s]



 77%|█████████████████████████████▉         | 1372/1784 [04:08<01:19,  5.20it/s]



 77%|██████████████████████████████▏        | 1382/1784 [04:10<01:17,  5.16it/s]



 78%|██████████████████████████████▍        | 1392/1784 [04:12<01:17,  5.04it/s]



 79%|██████████████████████████████▋        | 1402/1784 [04:14<01:14,  5.10it/s]



 79%|██████████████████████████████▊        | 1412/1784 [04:16<01:10,  5.30it/s]



 80%|███████████████████████████████        | 1422/1784 [04:18<01:07,  5.35it/s]



 80%|███████████████████████████████▎       | 1432/1784 [04:20<01:08,  5.16it/s]



 81%|███████████████████████████████▌       | 1442/1784 [04:21<01:04,  5.28it/s]



 81%|███████████████████████████████▋       | 1452/1784 [04:23<01:02,  5.28it/s]



 82%|███████████████████████████████▉       | 1462/1784 [04:25<01:02,  5.14it/s]



 83%|████████████████████████████████▏      | 1472/1784 [04:27<00:58,  5.29it/s]



 83%|████████████████████████████████▍      | 1482/1784 [04:29<00:59,  5.05it/s]



 84%|████████████████████████████████▌      | 1492/1784 [04:31<00:55,  5.22it/s]



 84%|████████████████████████████████▊      | 1502/1784 [04:33<00:46,  6.10it/s]



 85%|█████████████████████████████████      | 1512/1784 [04:34<00:46,  5.79it/s]



 85%|█████████████████████████████████▎     | 1522/1784 [04:36<00:46,  5.61it/s]



 86%|█████████████████████████████████▍     | 1532/1784 [04:38<00:42,  5.98it/s]



 86%|█████████████████████████████████▋     | 1542/1784 [04:40<00:42,  5.75it/s]



 87%|█████████████████████████████████▉     | 1552/1784 [04:41<00:41,  5.65it/s]



 88%|██████████████████████████████████▏    | 1562/1784 [04:43<00:37,  5.92it/s]



 88%|██████████████████████████████████▎    | 1572/1784 [04:45<00:36,  5.75it/s]



 89%|██████████████████████████████████▌    | 1582/1784 [04:46<00:34,  5.84it/s]



 89%|██████████████████████████████████▊    | 1592/1784 [04:48<00:34,  5.55it/s]



 90%|███████████████████████████████████    | 1602/1784 [04:50<00:31,  5.78it/s]



 90%|███████████████████████████████████▏   | 1612/1784 [04:51<00:29,  5.75it/s]



 91%|███████████████████████████████████▍   | 1622/1784 [04:53<00:30,  5.26it/s]



 91%|███████████████████████████████████▋   | 1632/1784 [04:55<00:29,  5.10it/s]



 92%|███████████████████████████████████▉   | 1642/1784 [04:57<00:26,  5.26it/s]



 93%|████████████████████████████████████   | 1652/1784 [04:59<00:25,  5.28it/s]



 93%|████████████████████████████████████▎  | 1662/1784 [05:01<00:23,  5.17it/s]



 94%|████████████████████████████████████▌  | 1672/1784 [05:03<00:21,  5.17it/s]



 94%|████████████████████████████████████▊  | 1682/1784 [05:05<00:19,  5.26it/s]



 95%|████████████████████████████████████▉  | 1692/1784 [05:06<00:17,  5.29it/s]



 95%|█████████████████████████████████████▏ | 1702/1784 [05:08<00:15,  5.24it/s]



 96%|█████████████████████████████████████▍ | 1712/1784 [05:10<00:14,  5.04it/s]



 97%|█████████████████████████████████████▋ | 1722/1784 [05:12<00:11,  5.19it/s]



 97%|█████████████████████████████████████▊ | 1732/1784 [05:14<00:10,  5.08it/s]



 98%|██████████████████████████████████████ | 1742/1784 [05:16<00:07,  5.38it/s]



 98%|██████████████████████████████████████▎| 1752/1784 [05:18<00:06,  5.25it/s]



 99%|██████████████████████████████████████▌| 1762/1784 [05:20<00:04,  5.22it/s]



 99%|██████████████████████████████████████▋| 1772/1784 [05:22<00:02,  5.04it/s]



100%|██████████████████████████████████████▉| 1782/1784 [05:24<00:00,  5.19it/s]



100%|███████████████████████████████████████| 1784/1784 [05:24<00:00,  5.49it/s]


Beginning eval...


100%|█████████████████████████████████████████| 164/164 [00:12<00:00, 13.14it/s]


Epoch: 3, Test set: Average loss: 5.0008, Average CER: 0.927965 Average WER: 1.0054



  0%|                                          | 1/1784 [00:00<05:06,  5.82it/s]



  1%|▎                                        | 12/1784 [00:02<05:28,  5.39it/s]



  1%|▌                                        | 22/1784 [00:03<05:11,  5.66it/s]



  2%|▋                                        | 32/1784 [00:05<05:14,  5.57it/s]



  2%|▉                                        | 42/1784 [00:07<04:49,  6.01it/s]



  3%|█▏                                       | 52/1784 [00:09<05:39,  5.10it/s]



  3%|█▍                                       | 62/1784 [00:11<05:25,  5.29it/s]



  4%|█▋                                       | 72/1784 [00:12<05:34,  5.12it/s]



  5%|█▉                                       | 82/1784 [00:14<05:32,  5.12it/s]



  5%|██                                       | 92/1784 [00:16<05:22,  5.24it/s]



  6%|██▎                                     | 102/1784 [00:18<05:26,  5.15it/s]



  6%|██▌                                     | 112/1784 [00:20<05:19,  5.23it/s]



  7%|██▋                                     | 122/1784 [00:22<05:16,  5.24it/s]



  7%|██▉                                     | 132/1784 [00:24<05:03,  5.45it/s]



  8%|███▏                                    | 142/1784 [00:26<05:08,  5.32it/s]



  9%|███▍                                    | 152/1784 [00:27<05:12,  5.22it/s]



  9%|███▋                                    | 162/1784 [00:29<05:17,  5.12it/s]



 10%|███▊                                    | 172/1784 [00:31<05:11,  5.17it/s]



 10%|████                                    | 182/1784 [00:33<05:12,  5.12it/s]



 11%|████▎                                   | 192/1784 [00:35<05:16,  5.03it/s]



 11%|████▌                                   | 202/1784 [00:37<05:08,  5.12it/s]



 12%|████▊                                   | 212/1784 [00:39<05:03,  5.17it/s]



 12%|████▉                                   | 222/1784 [00:41<04:51,  5.36it/s]



 13%|█████▏                                  | 232/1784 [00:43<04:57,  5.22it/s]



 14%|█████▍                                  | 242/1784 [00:45<05:06,  5.02it/s]



 14%|█████▋                                  | 252/1784 [00:47<04:56,  5.16it/s]



 15%|█████▊                                  | 262/1784 [00:48<04:45,  5.34it/s]



 15%|██████                                  | 272/1784 [00:50<04:52,  5.16it/s]



 16%|██████▎                                 | 282/1784 [00:52<04:58,  5.03it/s]



 16%|██████▌                                 | 292/1784 [00:54<04:50,  5.13it/s]



 17%|██████▊                                 | 302/1784 [00:56<04:53,  5.05it/s]



 17%|██████▉                                 | 312/1784 [00:58<04:57,  4.94it/s]



 18%|███████▏                                | 322/1784 [01:00<04:42,  5.18it/s]



 19%|███████▍                                | 332/1784 [01:02<04:44,  5.11it/s]



 19%|███████▋                                | 342/1784 [01:04<04:36,  5.22it/s]



 20%|███████▉                                | 352/1784 [01:06<04:33,  5.23it/s]



 20%|████████                                | 362/1784 [01:07<04:40,  5.07it/s]



 21%|████████▎                               | 372/1784 [01:09<04:36,  5.10it/s]



 21%|████████▌                               | 382/1784 [01:11<04:40,  5.00it/s]



 22%|████████▊                               | 392/1784 [01:13<04:27,  5.21it/s]



 23%|█████████                               | 402/1784 [01:15<04:38,  4.96it/s]



 23%|█████████▏                              | 412/1784 [01:17<04:27,  5.13it/s]



 24%|█████████▍                              | 422/1784 [01:19<04:13,  5.38it/s]



 24%|█████████▋                              | 432/1784 [01:21<03:56,  5.72it/s]



 25%|█████████▉                              | 442/1784 [01:22<03:49,  5.85it/s]



 25%|██████████▏                             | 452/1784 [01:24<04:03,  5.46it/s]



 26%|██████████▎                             | 462/1784 [01:26<03:47,  5.82it/s]



 26%|██████████▌                             | 472/1784 [01:28<03:38,  6.01it/s]



 27%|██████████▊                             | 482/1784 [01:29<03:47,  5.72it/s]



 28%|███████████                             | 492/1784 [01:31<03:52,  5.56it/s]



 28%|███████████▎                            | 502/1784 [01:33<03:44,  5.72it/s]



 29%|███████████▍                            | 512/1784 [01:35<03:41,  5.74it/s]



 29%|███████████▋                            | 522/1784 [01:36<03:44,  5.62it/s]



 30%|███████████▉                            | 532/1784 [01:38<03:34,  5.83it/s]



 30%|████████████▏                           | 542/1784 [01:40<03:36,  5.74it/s]



 31%|████████████▍                           | 552/1784 [01:42<04:03,  5.06it/s]



 32%|████████████▌                           | 562/1784 [01:44<03:58,  5.13it/s]



 32%|████████████▊                           | 572/1784 [01:45<03:43,  5.43it/s]



 33%|█████████████                           | 582/1784 [01:47<03:53,  5.14it/s]



 33%|█████████████▎                          | 592/1784 [01:49<04:03,  4.90it/s]



 34%|█████████████▍                          | 602/1784 [01:51<03:45,  5.24it/s]



 34%|█████████████▋                          | 612/1784 [01:53<03:43,  5.24it/s]



 35%|█████████████▉                          | 622/1784 [01:55<03:42,  5.22it/s]



 35%|██████████████▏                         | 632/1784 [01:57<03:44,  5.14it/s]



 36%|██████████████▍                         | 642/1784 [01:59<03:45,  5.05it/s]



 37%|██████████████▌                         | 652/1784 [02:01<03:26,  5.48it/s]



 37%|██████████████▊                         | 662/1784 [02:02<03:31,  5.31it/s]



 38%|███████████████                         | 672/1784 [02:04<03:31,  5.26it/s]



 38%|███████████████▎                        | 682/1784 [02:06<03:22,  5.45it/s]



 39%|███████████████▌                        | 692/1784 [02:08<03:28,  5.24it/s]



 39%|███████████████▋                        | 702/1784 [02:10<03:22,  5.35it/s]



 40%|███████████████▉                        | 712/1784 [02:12<03:28,  5.14it/s]



 40%|████████████████▏                       | 722/1784 [02:14<03:17,  5.39it/s]



 41%|████████████████▍                       | 732/1784 [02:15<03:16,  5.37it/s]



 42%|████████████████▋                       | 742/1784 [02:17<03:17,  5.29it/s]



 42%|████████████████▊                       | 752/1784 [02:19<03:18,  5.21it/s]



 43%|█████████████████                       | 762/1784 [02:21<03:19,  5.12it/s]



 43%|█████████████████▎                      | 772/1784 [02:23<03:12,  5.26it/s]



 44%|█████████████████▌                      | 782/1784 [02:25<03:11,  5.24it/s]



 44%|█████████████████▊                      | 792/1784 [02:27<03:11,  5.17it/s]



 45%|█████████████████▉                      | 802/1784 [02:29<03:15,  5.03it/s]



 46%|██████████████████▏                     | 812/1784 [02:30<03:05,  5.25it/s]



 46%|██████████████████▍                     | 822/1784 [02:32<03:02,  5.26it/s]



 47%|██████████████████▋                     | 832/1784 [02:34<03:01,  5.24it/s]



 47%|██████████████████▉                     | 842/1784 [02:36<02:54,  5.39it/s]



 48%|███████████████████                     | 852/1784 [02:38<03:02,  5.11it/s]



 48%|███████████████████▎                    | 862/1784 [02:40<03:00,  5.09it/s]



 49%|███████████████████▌                    | 872/1784 [02:42<02:48,  5.40it/s]



 49%|███████████████████▊                    | 881/1784 [02:43<03:04,  4.89it/s]



 50%|████████████████████                    | 892/1784 [02:46<02:52,  5.16it/s]



 51%|████████████████████▏                   | 902/1784 [02:48<02:53,  5.09it/s]



 51%|████████████████████▍                   | 912/1784 [02:50<02:48,  5.18it/s]



 52%|████████████████████▋                   | 922/1784 [02:51<02:41,  5.34it/s]



 52%|████████████████████▉                   | 932/1784 [02:53<02:44,  5.18it/s]



 53%|█████████████████████                   | 942/1784 [02:55<02:43,  5.16it/s]



 53%|█████████████████████▎                  | 952/1784 [02:57<02:38,  5.23it/s]



 54%|█████████████████████▌                  | 962/1784 [02:59<02:40,  5.11it/s]



 54%|█████████████████████▊                  | 972/1784 [03:01<02:35,  5.21it/s]



 55%|██████████████████████                  | 982/1784 [03:03<02:19,  5.75it/s]



 56%|██████████████████████▏                 | 992/1784 [03:05<02:21,  5.60it/s]



 56%|█████████████████████▉                 | 1002/1784 [03:06<02:20,  5.56it/s]



 57%|██████████████████████                 | 1012/1784 [03:08<02:22,  5.42it/s]



 57%|██████████████████████▎                | 1022/1784 [03:10<02:05,  6.06it/s]



 58%|██████████████████████▌                | 1032/1784 [03:11<02:06,  5.93it/s]



 58%|██████████████████████▊                | 1042/1784 [03:13<02:07,  5.80it/s]



 59%|██████████████████████▉                | 1052/1784 [03:15<02:12,  5.53it/s]



 60%|███████████████████████▏               | 1062/1784 [03:17<02:05,  5.76it/s]



 60%|███████████████████████▍               | 1072/1784 [03:18<02:02,  5.80it/s]



 61%|███████████████████████▋               | 1082/1784 [03:20<02:04,  5.66it/s]



 61%|███████████████████████▊               | 1092/1784 [03:22<02:09,  5.35it/s]



 62%|████████████████████████               | 1102/1784 [03:24<02:08,  5.30it/s]



 62%|████████████████████████▎              | 1112/1784 [03:26<02:07,  5.28it/s]



 63%|████████████████████████▌              | 1122/1784 [03:27<02:05,  5.29it/s]



 63%|████████████████████████▋              | 1132/1784 [03:29<02:03,  5.27it/s]



 64%|████████████████████████▉              | 1142/1784 [03:31<02:05,  5.11it/s]



 65%|█████████████████████████▏             | 1152/1784 [03:33<02:02,  5.16it/s]



 65%|█████████████████████████▍             | 1162/1784 [03:35<01:50,  5.60it/s]



 66%|█████████████████████████▌             | 1172/1784 [03:37<01:48,  5.65it/s]



 66%|█████████████████████████▊             | 1182/1784 [03:39<01:47,  5.59it/s]



 67%|██████████████████████████             | 1192/1784 [03:40<01:42,  5.80it/s]



 67%|██████████████████████████▎            | 1202/1784 [03:42<01:38,  5.91it/s]



 68%|██████████████████████████▍            | 1212/1784 [03:44<01:37,  5.86it/s]



 68%|██████████████████████████▋            | 1222/1784 [03:46<01:30,  6.20it/s]



 69%|██████████████████████████▉            | 1232/1784 [03:47<01:30,  6.10it/s]



 70%|███████████████████████████▏           | 1242/1784 [03:49<01:34,  5.76it/s]



 70%|███████████████████████████▎           | 1252/1784 [03:51<01:32,  5.72it/s]



 71%|███████████████████████████▌           | 1262/1784 [03:53<01:34,  5.55it/s]



 71%|███████████████████████████▊           | 1272/1784 [03:54<01:28,  5.81it/s]



 72%|████████████████████████████           | 1282/1784 [03:56<01:26,  5.79it/s]



 72%|████████████████████████████▏          | 1292/1784 [03:58<01:24,  5.81it/s]



 73%|████████████████████████████▍          | 1302/1784 [03:59<01:20,  5.95it/s]



 74%|████████████████████████████▋          | 1312/1784 [04:01<01:19,  5.95it/s]



 74%|████████████████████████████▉          | 1322/1784 [04:03<01:19,  5.79it/s]



 75%|█████████████████████████████          | 1332/1784 [04:04<01:21,  5.53it/s]



 75%|█████████████████████████████▎         | 1342/1784 [04:06<01:20,  5.48it/s]



 76%|█████████████████████████████▌         | 1352/1784 [04:08<01:24,  5.13it/s]



 76%|█████████████████████████████▊         | 1362/1784 [04:10<01:21,  5.19it/s]



 77%|█████████████████████████████▉         | 1372/1784 [04:12<01:19,  5.21it/s]



 77%|██████████████████████████████▏        | 1382/1784 [04:14<01:14,  5.38it/s]



 78%|██████████████████████████████▍        | 1392/1784 [04:16<01:13,  5.31it/s]



 79%|██████████████████████████████▋        | 1402/1784 [04:18<01:14,  5.11it/s]



 79%|██████████████████████████████▊        | 1412/1784 [04:19<01:06,  5.60it/s]



 80%|███████████████████████████████        | 1422/1784 [04:21<01:05,  5.54it/s]



 80%|███████████████████████████████▎       | 1432/1784 [04:23<00:59,  5.90it/s]



 81%|███████████████████████████████▌       | 1442/1784 [04:24<01:02,  5.51it/s]



 81%|███████████████████████████████▋       | 1452/1784 [04:26<00:55,  6.00it/s]



 82%|███████████████████████████████▉       | 1462/1784 [04:28<01:01,  5.24it/s]



 83%|████████████████████████████████▏      | 1472/1784 [04:30<01:03,  4.92it/s]



 83%|████████████████████████████████▍      | 1482/1784 [04:32<01:00,  4.97it/s]



 84%|████████████████████████████████▌      | 1492/1784 [04:34<00:58,  5.01it/s]



 84%|████████████████████████████████▊      | 1501/1784 [04:36<00:58,  4.84it/s]



 85%|█████████████████████████████████      | 1512/1784 [04:38<00:56,  4.81it/s]



 85%|█████████████████████████████████▎     | 1522/1784 [04:40<00:56,  4.64it/s]



 86%|█████████████████████████████████▍     | 1532/1784 [04:42<00:52,  4.80it/s]



 86%|█████████████████████████████████▋     | 1542/1784 [04:44<00:51,  4.71it/s]



 87%|█████████████████████████████████▉     | 1552/1784 [04:46<00:44,  5.24it/s]



 88%|██████████████████████████████████▏    | 1562/1784 [04:48<00:44,  4.94it/s]



 88%|██████████████████████████████████▎    | 1572/1784 [04:50<00:42,  5.00it/s]



 89%|██████████████████████████████████▌    | 1582/1784 [04:52<00:39,  5.12it/s]



 89%|██████████████████████████████████▊    | 1592/1784 [04:54<00:36,  5.20it/s]



 90%|███████████████████████████████████    | 1602/1784 [04:56<00:34,  5.35it/s]



 90%|███████████████████████████████████▏   | 1612/1784 [04:58<00:34,  5.03it/s]



 91%|███████████████████████████████████▍   | 1622/1784 [05:00<00:31,  5.19it/s]



 91%|███████████████████████████████████▋   | 1632/1784 [05:02<00:28,  5.29it/s]



 92%|███████████████████████████████████▉   | 1642/1784 [05:03<00:27,  5.13it/s]



 93%|████████████████████████████████████   | 1652/1784 [05:05<00:26,  5.02it/s]



 93%|████████████████████████████████████▎  | 1662/1784 [05:07<00:23,  5.24it/s]



 94%|████████████████████████████████████▌  | 1672/1784 [05:09<00:21,  5.29it/s]



 94%|████████████████████████████████████▊  | 1682/1784 [05:11<00:20,  5.08it/s]



 95%|████████████████████████████████████▉  | 1692/1784 [05:13<00:17,  5.23it/s]



 95%|█████████████████████████████████████▏ | 1702/1784 [05:15<00:16,  5.11it/s]



 96%|█████████████████████████████████████▍ | 1712/1784 [05:17<00:14,  5.05it/s]



 97%|█████████████████████████████████████▋ | 1722/1784 [05:19<00:10,  5.98it/s]



 97%|█████████████████████████████████████▊ | 1732/1784 [05:20<00:09,  5.59it/s]



 98%|██████████████████████████████████████ | 1742/1784 [05:22<00:06,  6.09it/s]



 98%|██████████████████████████████████████▎| 1752/1784 [05:24<00:05,  5.91it/s]



 99%|██████████████████████████████████████▌| 1762/1784 [05:25<00:03,  5.69it/s]



 99%|██████████████████████████████████████▋| 1772/1784 [05:27<00:02,  5.84it/s]



100%|██████████████████████████████████████▉| 1782/1784 [05:29<00:00,  6.35it/s]



100%|███████████████████████████████████████| 1784/1784 [05:29<00:00,  5.41it/s]


Beginning eval...


100%|█████████████████████████████████████████| 164/164 [00:12<00:00, 12.82it/s]


Epoch: 4, Test set: Average loss: 5.0664, Average CER: 0.928272 Average WER: 1.0053



  0%|                                          | 1/1784 [00:00<04:42,  6.31it/s]



  1%|▎                                        | 12/1784 [00:02<05:29,  5.38it/s]



  1%|▌                                        | 22/1784 [00:03<05:18,  5.53it/s]



  2%|▋                                        | 32/1784 [00:05<05:05,  5.74it/s]



  2%|▉                                        | 42/1784 [00:07<04:56,  5.88it/s]



  3%|█▏                                       | 52/1784 [00:08<04:58,  5.79it/s]



  3%|█▍                                       | 62/1784 [00:10<04:59,  5.74it/s]



  4%|█▋                                       | 72/1784 [00:12<05:00,  5.70it/s]



  5%|█▉                                       | 82/1784 [00:14<05:00,  5.66it/s]



  5%|██                                       | 92/1784 [00:15<04:55,  5.73it/s]



  6%|██▎                                     | 102/1784 [00:17<05:16,  5.31it/s]



  6%|██▌                                     | 112/1784 [00:19<05:17,  5.27it/s]



  7%|██▋                                     | 122/1784 [00:21<05:44,  4.83it/s]



  7%|██▉                                     | 132/1784 [00:23<05:25,  5.08it/s]



  8%|███▏                                    | 142/1784 [00:25<05:22,  5.09it/s]



  9%|███▍                                    | 152/1784 [00:27<05:19,  5.11it/s]



  9%|███▋                                    | 162/1784 [00:29<05:06,  5.29it/s]



 10%|███▊                                    | 172/1784 [00:31<05:21,  5.01it/s]



 10%|████                                    | 182/1784 [00:32<05:06,  5.23it/s]



 11%|████▎                                   | 192/1784 [00:34<05:10,  5.12it/s]



 11%|████▌                                   | 202/1784 [00:36<05:05,  5.17it/s]



 12%|████▊                                   | 212/1784 [00:38<04:57,  5.28it/s]



 12%|████▉                                   | 222/1784 [00:40<05:02,  5.17it/s]



 13%|█████▏                                  | 232/1784 [00:42<04:55,  5.26it/s]



 14%|█████▍                                  | 242/1784 [00:44<05:10,  4.97it/s]



 14%|█████▋                                  | 252/1784 [00:46<04:38,  5.49it/s]



 15%|█████▊                                  | 262/1784 [00:48<04:25,  5.72it/s]



 15%|██████                                  | 272/1784 [00:49<04:21,  5.79it/s]



 16%|██████▎                                 | 282/1784 [00:51<04:23,  5.71it/s]



 16%|██████▌                                 | 292/1784 [00:53<04:25,  5.62it/s]



 17%|██████▊                                 | 302/1784 [00:54<04:17,  5.76it/s]



 17%|██████▉                                 | 312/1784 [00:56<04:13,  5.80it/s]



 18%|███████▏                                | 322/1784 [00:58<04:09,  5.85it/s]



 19%|███████▍                                | 332/1784 [01:00<04:14,  5.71it/s]



 19%|███████▋                                | 342/1784 [01:01<04:04,  5.91it/s]



 20%|███████▉                                | 352/1784 [01:03<04:12,  5.67it/s]



 20%|████████                                | 362/1784 [01:05<04:28,  5.30it/s]



 21%|████████▎                               | 372/1784 [01:07<04:21,  5.40it/s]



 21%|████████▌                               | 382/1784 [01:09<04:30,  5.18it/s]



 22%|████████▊                               | 392/1784 [01:10<04:35,  5.05it/s]



 23%|█████████                               | 402/1784 [01:12<04:26,  5.18it/s]



 23%|█████████▏                              | 412/1784 [01:14<04:25,  5.17it/s]



 24%|█████████▍                              | 422/1784 [01:16<04:20,  5.24it/s]



 24%|█████████▋                              | 432/1784 [01:18<04:17,  5.25it/s]



 25%|█████████▉                              | 442/1784 [01:20<04:16,  5.22it/s]



 25%|██████████▏                             | 452/1784 [01:22<04:16,  5.19it/s]



 26%|██████████▎                             | 462/1784 [01:24<04:26,  4.97it/s]



 26%|██████████▌                             | 472/1784 [01:26<04:03,  5.38it/s]



 27%|██████████▊                             | 482/1784 [01:28<04:12,  5.15it/s]



 28%|███████████                             | 492/1784 [01:29<04:06,  5.25it/s]



 28%|███████████▎                            | 502/1784 [01:31<04:15,  5.02it/s]



 29%|███████████▍                            | 511/1784 [01:33<03:58,  5.34it/s]



 29%|███████████▋                            | 522/1784 [01:35<03:45,  5.58it/s]



 30%|███████████▉                            | 532/1784 [01:37<03:32,  5.90it/s]



 30%|████████████▏                           | 542/1784 [01:38<03:38,  5.68it/s]



 31%|████████████▍                           | 552/1784 [01:40<03:30,  5.86it/s]



 32%|████████████▌                           | 562/1784 [01:42<03:36,  5.64it/s]



 32%|████████████▊                           | 572/1784 [01:43<03:33,  5.67it/s]



 33%|█████████████                           | 582/1784 [01:45<03:31,  5.69it/s]



 33%|█████████████▎                          | 592/1784 [01:47<03:29,  5.70it/s]



 34%|█████████████▍                          | 602/1784 [01:49<04:46,  4.12it/s]



 34%|█████████████▋                          | 612/1784 [01:51<03:16,  5.95it/s]



 35%|█████████████▉                          | 622/1784 [01:52<03:28,  5.57it/s]



 35%|██████████████▏                         | 632/1784 [01:54<03:26,  5.58it/s]



 36%|██████████████▍                         | 642/1784 [01:56<03:20,  5.69it/s]



 37%|██████████████▌                         | 652/1784 [01:57<03:20,  5.65it/s]



 37%|██████████████▊                         | 662/1784 [01:59<03:21,  5.56it/s]



 38%|███████████████                         | 672/1784 [02:01<03:08,  5.89it/s]



 38%|███████████████▎                        | 682/1784 [02:03<03:18,  5.55it/s]



 39%|███████████████▌                        | 692/1784 [02:04<03:09,  5.75it/s]



 39%|███████████████▋                        | 702/1784 [02:06<03:07,  5.77it/s]



 40%|███████████████▉                        | 712/1784 [02:08<03:10,  5.62it/s]



 40%|████████████████▏                       | 722/1784 [02:10<03:13,  5.50it/s]



 41%|████████████████▍                       | 732/1784 [02:11<03:17,  5.33it/s]



 42%|████████████████▋                       | 742/1784 [02:13<03:01,  5.74it/s]



 42%|████████████████▊                       | 752/1784 [02:15<03:10,  5.43it/s]



 43%|█████████████████                       | 762/1784 [02:17<03:00,  5.65it/s]



 43%|█████████████████▎                      | 772/1784 [02:18<02:55,  5.76it/s]



 44%|█████████████████▌                      | 782/1784 [02:20<02:58,  5.61it/s]



 44%|█████████████████▊                      | 792/1784 [02:22<03:39,  4.53it/s]



 45%|█████████████████▉                      | 802/1784 [02:24<02:47,  5.85it/s]



 46%|██████████████████▏                     | 812/1784 [02:25<02:58,  5.46it/s]



 46%|██████████████████▍                     | 822/1784 [02:27<02:53,  5.54it/s]



 47%|██████████████████▋                     | 832/1784 [02:29<02:39,  5.96it/s]



 47%|██████████████████▉                     | 842/1784 [02:31<02:45,  5.70it/s]



 48%|███████████████████                     | 852/1784 [02:32<03:05,  5.02it/s]



 48%|███████████████████▎                    | 862/1784 [02:34<02:58,  5.18it/s]



 49%|███████████████████▌                    | 872/1784 [02:36<02:52,  5.28it/s]



 49%|███████████████████▊                    | 882/1784 [02:38<02:31,  5.94it/s]



 50%|████████████████████                    | 892/1784 [02:40<02:40,  5.54it/s]



 51%|████████████████████▏                   | 902/1784 [02:42<02:45,  5.32it/s]



 51%|████████████████████▍                   | 912/1784 [02:43<02:32,  5.71it/s]



 52%|████████████████████▋                   | 922/1784 [02:45<02:30,  5.74it/s]



 52%|████████████████████▉                   | 932/1784 [02:47<02:32,  5.59it/s]



 53%|█████████████████████                   | 942/1784 [02:48<02:25,  5.78it/s]



 53%|█████████████████████▎                  | 952/1784 [02:50<02:23,  5.80it/s]



 54%|█████████████████████▌                  | 962/1784 [02:52<02:23,  5.74it/s]



 54%|█████████████████████▊                  | 972/1784 [02:54<02:17,  5.88it/s]



 55%|██████████████████████                  | 982/1784 [02:55<02:16,  5.87it/s]



 56%|██████████████████████▏                 | 992/1784 [02:57<02:24,  5.49it/s]



 56%|█████████████████████▉                 | 1002/1784 [02:59<02:32,  5.14it/s]



 57%|██████████████████████                 | 1012/1784 [03:01<02:23,  5.37it/s]



 57%|██████████████████████▎                | 1022/1784 [03:03<02:33,  4.97it/s]



 58%|██████████████████████▌                | 1032/1784 [03:05<02:25,  5.17it/s]



 58%|██████████████████████▊                | 1042/1784 [03:07<02:23,  5.16it/s]



 59%|██████████████████████▉                | 1052/1784 [03:08<02:16,  5.37it/s]



 60%|███████████████████████▏               | 1062/1784 [03:10<02:19,  5.16it/s]



 60%|███████████████████████▍               | 1072/1784 [03:12<02:17,  5.18it/s]



 61%|███████████████████████▋               | 1082/1784 [03:14<02:05,  5.58it/s]



 61%|███████████████████████▊               | 1092/1784 [03:16<02:04,  5.56it/s]



 62%|████████████████████████               | 1102/1784 [03:17<01:56,  5.83it/s]



 62%|████████████████████████▎              | 1112/1784 [03:19<01:56,  5.79it/s]



 63%|████████████████████████▌              | 1122/1784 [03:21<01:55,  5.71it/s]



 63%|████████████████████████▋              | 1132/1784 [03:22<01:57,  5.54it/s]



 64%|████████████████████████▉              | 1142/1784 [03:24<01:49,  5.84it/s]



 65%|█████████████████████████▏             | 1152/1784 [03:26<01:59,  5.31it/s]



 65%|█████████████████████████▍             | 1162/1784 [03:28<01:47,  5.78it/s]



 66%|█████████████████████████▌             | 1172/1784 [03:29<01:47,  5.69it/s]



 66%|█████████████████████████▊             | 1182/1784 [03:31<01:45,  5.70it/s]



 67%|██████████████████████████             | 1192/1784 [03:33<01:51,  5.32it/s]



 67%|██████████████████████████▎            | 1202/1784 [03:35<01:53,  5.12it/s]



 68%|██████████████████████████▍            | 1212/1784 [03:37<01:47,  5.32it/s]



 68%|██████████████████████████▋            | 1222/1784 [03:39<01:48,  5.20it/s]



 69%|██████████████████████████▉            | 1232/1784 [03:41<01:48,  5.08it/s]



 70%|███████████████████████████▏           | 1242/1784 [03:42<01:47,  5.06it/s]



 70%|███████████████████████████▎           | 1252/1784 [03:44<01:37,  5.44it/s]



 71%|███████████████████████████▌           | 1262/1784 [03:46<01:37,  5.37it/s]



 71%|███████████████████████████▊           | 1272/1784 [03:48<01:39,  5.15it/s]



 72%|████████████████████████████           | 1282/1784 [03:50<01:39,  5.05it/s]



 72%|████████████████████████████▏          | 1292/1784 [03:52<01:41,  4.83it/s]



 73%|████████████████████████████▍          | 1302/1784 [03:54<01:35,  5.07it/s]



 74%|████████████████████████████▋          | 1312/1784 [03:56<01:30,  5.19it/s]



 74%|████████████████████████████▉          | 1322/1784 [03:58<01:30,  5.13it/s]



 75%|█████████████████████████████          | 1332/1784 [04:00<01:30,  4.99it/s]



 75%|█████████████████████████████▎         | 1342/1784 [04:02<01:24,  5.26it/s]



 76%|█████████████████████████████▌         | 1352/1784 [04:04<01:22,  5.23it/s]



 76%|█████████████████████████████▊         | 1362/1784 [04:05<01:21,  5.18it/s]



 77%|█████████████████████████████▉         | 1372/1784 [04:07<01:20,  5.11it/s]



 77%|██████████████████████████████▏        | 1382/1784 [04:09<01:16,  5.22it/s]



 78%|██████████████████████████████▍        | 1392/1784 [04:11<01:18,  4.98it/s]



 79%|██████████████████████████████▋        | 1402/1784 [04:13<01:15,  5.07it/s]



 79%|██████████████████████████████▊        | 1412/1784 [04:15<01:13,  5.06it/s]



 80%|███████████████████████████████        | 1422/1784 [04:17<01:10,  5.16it/s]



 80%|███████████████████████████████▎       | 1432/1784 [04:19<01:06,  5.26it/s]



 81%|███████████████████████████████▌       | 1442/1784 [04:21<01:07,  5.10it/s]



 81%|███████████████████████████████▋       | 1452/1784 [04:23<01:05,  5.06it/s]



 82%|███████████████████████████████▉       | 1462/1784 [04:25<01:01,  5.21it/s]



 83%|████████████████████████████████▏      | 1472/1784 [04:26<00:59,  5.22it/s]



 83%|████████████████████████████████▍      | 1482/1784 [04:28<00:57,  5.24it/s]



 84%|████████████████████████████████▌      | 1492/1784 [04:30<00:57,  5.10it/s]



 84%|████████████████████████████████▊      | 1502/1784 [04:32<00:47,  5.91it/s]



 85%|█████████████████████████████████      | 1512/1784 [04:34<00:50,  5.37it/s]



 85%|█████████████████████████████████▎     | 1522/1784 [04:35<00:45,  5.74it/s]



 86%|█████████████████████████████████▍     | 1532/1784 [04:37<00:42,  5.95it/s]



 86%|█████████████████████████████████▋     | 1542/1784 [04:39<00:44,  5.39it/s]



 87%|█████████████████████████████████▉     | 1552/1784 [04:41<00:39,  5.87it/s]



 88%|██████████████████████████████████▏    | 1562/1784 [04:42<00:40,  5.52it/s]



 88%|██████████████████████████████████▎    | 1572/1784 [04:44<00:37,  5.71it/s]



 89%|██████████████████████████████████▌    | 1582/1784 [04:46<00:34,  5.78it/s]



 89%|██████████████████████████████████▊    | 1592/1784 [04:47<00:33,  5.76it/s]



 90%|███████████████████████████████████    | 1602/1784 [04:49<00:31,  5.84it/s]



 90%|███████████████████████████████████▏   | 1612/1784 [04:51<00:32,  5.27it/s]



 91%|███████████████████████████████████▍   | 1622/1784 [04:53<00:32,  4.95it/s]



 91%|███████████████████████████████████▋   | 1632/1784 [04:55<00:29,  5.08it/s]



 92%|███████████████████████████████████▉   | 1642/1784 [04:57<00:27,  5.12it/s]



 93%|████████████████████████████████████   | 1652/1784 [04:59<00:25,  5.19it/s]



 93%|████████████████████████████████████▎  | 1662/1784 [05:01<00:24,  5.01it/s]



 94%|████████████████████████████████████▌  | 1672/1784 [05:02<00:22,  5.00it/s]



 94%|████████████████████████████████████▊  | 1682/1784 [05:04<00:20,  5.05it/s]



 95%|████████████████████████████████████▉  | 1692/1784 [05:06<00:17,  5.12it/s]



 95%|█████████████████████████████████████▏ | 1702/1784 [05:08<00:16,  5.10it/s]



 96%|█████████████████████████████████████▍ | 1712/1784 [05:10<00:13,  5.15it/s]



 97%|█████████████████████████████████████▋ | 1722/1784 [05:12<00:12,  5.08it/s]



 97%|█████████████████████████████████████▊ | 1732/1784 [05:14<00:09,  5.37it/s]



 98%|██████████████████████████████████████ | 1742/1784 [05:16<00:08,  5.11it/s]



 98%|██████████████████████████████████████▎| 1752/1784 [05:18<00:06,  5.02it/s]



 99%|██████████████████████████████████████▌| 1762/1784 [05:20<00:04,  5.00it/s]



 99%|██████████████████████████████████████▋| 1772/1784 [05:22<00:02,  5.01it/s]



100%|██████████████████████████████████████▉| 1782/1784 [05:24<00:00,  5.06it/s]



100%|███████████████████████████████████████| 1784/1784 [05:24<00:00,  5.49it/s]


Beginning eval...


100%|█████████████████████████████████████████| 164/164 [00:12<00:00, 12.79it/s]


Epoch: 5, Test set: Average loss: 5.0120, Average CER: 0.930932 Average WER: 1.0052



  0%|                                          | 1/1784 [00:00<04:39,  6.39it/s]



  1%|▎                                        | 12/1784 [00:02<05:46,  5.11it/s]



  1%|▌                                        | 22/1784 [00:03<05:17,  5.56it/s]



  2%|▋                                        | 32/1784 [00:05<05:08,  5.68it/s]



  2%|▉                                        | 42/1784 [00:07<05:18,  5.47it/s]



  3%|█▏                                       | 52/1784 [00:09<05:49,  4.95it/s]



  3%|█▍                                       | 62/1784 [00:11<05:40,  5.05it/s]



  4%|█▋                                       | 72/1784 [00:13<05:37,  5.08it/s]



  5%|█▉                                       | 82/1784 [00:15<04:55,  5.76it/s]



  5%|██                                       | 92/1784 [00:16<04:57,  5.69it/s]



  6%|██▎                                     | 102/1784 [00:18<05:15,  5.34it/s]



  6%|██▌                                     | 112/1784 [00:20<04:52,  5.72it/s]



  7%|██▋                                     | 122/1784 [00:21<04:52,  5.68it/s]



  7%|██▉                                     | 132/1784 [00:23<04:46,  5.77it/s]



  8%|███▏                                    | 142/1784 [00:25<04:36,  5.93it/s]



  9%|███▍                                    | 152/1784 [00:27<05:06,  5.33it/s]



  9%|███▋                                    | 162/1784 [00:28<04:49,  5.61it/s]



 10%|███▊                                    | 172/1784 [00:30<04:28,  6.00it/s]



 10%|████                                    | 182/1784 [00:32<04:52,  5.48it/s]



 11%|████▎                                   | 192/1784 [00:34<04:47,  5.54it/s]



 11%|████▌                                   | 202/1784 [00:35<05:13,  5.05it/s]



 12%|████▊                                   | 212/1784 [00:37<05:07,  5.12it/s]



 12%|████▉                                   | 222/1784 [00:39<04:58,  5.23it/s]



 13%|█████▏                                  | 232/1784 [00:41<05:02,  5.14it/s]



 14%|█████▍                                  | 242/1784 [00:43<05:20,  4.81it/s]



 14%|█████▋                                  | 252/1784 [00:45<04:58,  5.13it/s]



 15%|█████▊                                  | 262/1784 [00:47<04:52,  5.20it/s]



 15%|██████                                  | 272/1784 [00:49<04:54,  5.14it/s]



 16%|██████▎                                 | 282/1784 [00:51<04:55,  5.08it/s]



 16%|██████▌                                 | 292/1784 [00:53<04:44,  5.25it/s]



 17%|██████▊                                 | 302/1784 [00:55<04:55,  5.02it/s]



 17%|██████▉                                 | 312/1784 [00:56<04:47,  5.12it/s]



 18%|███████▏                                | 322/1784 [00:58<04:44,  5.14it/s]



 19%|███████▍                                | 332/1784 [01:00<04:36,  5.25it/s]



 19%|███████▋                                | 342/1784 [01:02<04:38,  5.17it/s]



 20%|███████▉                                | 352/1784 [01:04<04:45,  5.01it/s]



 20%|████████                                | 362/1784 [01:06<04:33,  5.19it/s]



 21%|████████▎                               | 372/1784 [01:08<03:54,  6.02it/s]



 21%|████████▌                               | 382/1784 [01:10<04:15,  5.48it/s]



 22%|████████▊                               | 392/1784 [01:11<04:02,  5.75it/s]



 23%|█████████                               | 402/1784 [01:13<04:03,  5.67it/s]



 23%|█████████▏                              | 412/1784 [01:15<03:59,  5.72it/s]



 24%|█████████▍                              | 422/1784 [01:17<04:13,  5.37it/s]



 24%|█████████▋                              | 431/1784 [01:18<03:46,  5.98it/s]



 25%|█████████▉                              | 442/1784 [01:20<03:44,  5.97it/s]



 25%|██████████▏                             | 452/1784 [01:22<03:45,  5.90it/s]



 26%|██████████▎                             | 462/1784 [01:24<03:47,  5.80it/s]



 26%|██████████▌                             | 472/1784 [01:25<03:55,  5.57it/s]



 27%|██████████▊                             | 482/1784 [01:27<04:01,  5.38it/s]



 28%|███████████                             | 492/1784 [01:29<03:53,  5.53it/s]



 28%|███████████▎                            | 502/1784 [01:31<03:51,  5.53it/s]



 29%|███████████▍                            | 512/1784 [01:32<03:43,  5.68it/s]



 29%|███████████▋                            | 522/1784 [01:34<03:46,  5.58it/s]



 30%|███████████▉                            | 532/1784 [01:36<03:44,  5.58it/s]



 30%|████████████▏                           | 542/1784 [01:37<03:29,  5.92it/s]



 31%|████████████▍                           | 552/1784 [01:39<04:01,  5.10it/s]



 32%|████████████▌                           | 562/1784 [01:41<03:58,  5.12it/s]



 32%|████████████▊                           | 572/1784 [01:43<04:04,  4.96it/s]



 33%|█████████████                           | 582/1784 [01:45<03:51,  5.19it/s]



 33%|█████████████▎                          | 592/1784 [01:47<03:53,  5.10it/s]



 34%|█████████████▍                          | 602/1784 [01:49<03:53,  5.06it/s]



 34%|█████████████▋                          | 612/1784 [01:51<03:47,  5.14it/s]



 35%|█████████████▉                          | 622/1784 [01:53<03:53,  4.98it/s]



 35%|██████████████▏                         | 632/1784 [01:55<03:48,  5.03it/s]



 36%|██████████████▍                         | 642/1784 [01:57<03:45,  5.06it/s]



 37%|██████████████▌                         | 652/1784 [01:59<03:50,  4.91it/s]



 37%|██████████████▊                         | 662/1784 [02:00<03:40,  5.08it/s]



 38%|███████████████                         | 672/1784 [02:02<03:38,  5.09it/s]



 38%|███████████████▎                        | 682/1784 [02:04<03:34,  5.13it/s]



 39%|███████████████▌                        | 692/1784 [02:06<03:42,  4.90it/s]



 39%|███████████████▋                        | 702/1784 [02:08<03:26,  5.24it/s]



 40%|███████████████▉                        | 712/1784 [02:10<03:29,  5.11it/s]



 40%|████████████████▏                       | 722/1784 [02:12<03:26,  5.14it/s]



 41%|████████████████▍                       | 732/1784 [02:14<03:24,  5.15it/s]



 42%|████████████████▋                       | 742/1784 [02:16<03:31,  4.93it/s]



 42%|████████████████▊                       | 752/1784 [02:18<03:21,  5.12it/s]



 43%|█████████████████                       | 762/1784 [02:20<03:19,  5.12it/s]



 43%|█████████████████▎                      | 772/1784 [02:22<03:20,  5.03it/s]



 44%|█████████████████▌                      | 782/1784 [02:24<03:17,  5.07it/s]



 44%|█████████████████▊                      | 792/1784 [02:26<03:14,  5.11it/s]



 45%|█████████████████▉                      | 802/1784 [02:27<03:09,  5.18it/s]



 46%|██████████████████▏                     | 812/1784 [02:29<03:09,  5.13it/s]



 46%|██████████████████▍                     | 822/1784 [02:31<03:04,  5.23it/s]



 47%|██████████████████▋                     | 832/1784 [02:33<03:05,  5.14it/s]



 47%|██████████████████▉                     | 842/1784 [02:35<03:04,  5.11it/s]



 48%|███████████████████                     | 852/1784 [02:37<02:55,  5.32it/s]



 48%|███████████████████▎                    | 862/1784 [02:39<02:56,  5.24it/s]



 49%|███████████████████▌                    | 872/1784 [02:41<03:07,  4.85it/s]



 49%|███████████████████▊                    | 882/1784 [02:43<02:57,  5.09it/s]



 50%|████████████████████                    | 892/1784 [02:45<02:55,  5.08it/s]



 51%|████████████████████▏                   | 902/1784 [02:47<02:49,  5.19it/s]



 51%|████████████████████▍                   | 912/1784 [02:49<02:53,  5.01it/s]



 52%|████████████████████▋                   | 922/1784 [02:50<02:47,  5.16it/s]



 52%|████████████████████▉                   | 932/1784 [02:52<02:44,  5.19it/s]



 53%|█████████████████████                   | 942/1784 [02:54<02:44,  5.13it/s]



 53%|█████████████████████▎                  | 952/1784 [02:56<02:40,  5.19it/s]



 54%|█████████████████████▌                  | 962/1784 [02:58<02:49,  4.86it/s]



 54%|█████████████████████▊                  | 972/1784 [03:00<02:41,  5.04it/s]



 55%|██████████████████████                  | 982/1784 [03:02<02:42,  4.94it/s]



 56%|██████████████████████▏                 | 992/1784 [03:04<02:36,  5.07it/s]



 56%|█████████████████████▉                 | 1002/1784 [03:06<02:23,  5.47it/s]



 57%|██████████████████████                 | 1012/1784 [03:08<02:22,  5.40it/s]



 57%|██████████████████████▎                | 1022/1784 [03:09<02:12,  5.74it/s]



 58%|██████████████████████▌                | 1032/1784 [03:11<02:18,  5.43it/s]



 58%|██████████████████████▊                | 1042/1784 [03:13<02:21,  5.26it/s]



 59%|██████████████████████▉                | 1052/1784 [03:15<02:12,  5.51it/s]



 60%|███████████████████████▏               | 1062/1784 [03:16<02:11,  5.48it/s]



 60%|███████████████████████▍               | 1072/1784 [03:18<02:06,  5.64it/s]



 61%|███████████████████████▋               | 1082/1784 [03:20<02:06,  5.53it/s]



 61%|███████████████████████▊               | 1092/1784 [03:22<02:04,  5.54it/s]



 62%|████████████████████████               | 1102/1784 [03:23<02:08,  5.32it/s]



 62%|████████████████████████▎              | 1112/1784 [03:25<02:11,  5.11it/s]



 63%|████████████████████████▌              | 1122/1784 [03:27<02:14,  4.94it/s]



 63%|████████████████████████▋              | 1132/1784 [03:29<02:10,  4.99it/s]



 64%|████████████████████████▉              | 1142/1784 [03:31<02:09,  4.96it/s]



 65%|█████████████████████████▏             | 1152/1784 [03:33<02:02,  5.16it/s]



 65%|█████████████████████████▍             | 1162/1784 [03:35<02:03,  5.02it/s]



 66%|█████████████████████████▌             | 1172/1784 [03:37<02:00,  5.08it/s]



 66%|█████████████████████████▊             | 1182/1784 [03:39<01:59,  5.03it/s]



 67%|██████████████████████████             | 1192/1784 [03:41<01:54,  5.16it/s]



 67%|██████████████████████████▎            | 1202/1784 [03:43<01:49,  5.31it/s]



 68%|██████████████████████████▍            | 1212/1784 [03:45<01:49,  5.21it/s]



 68%|██████████████████████████▋            | 1222/1784 [03:47<01:49,  5.12it/s]



 69%|██████████████████████████▉            | 1232/1784 [03:49<01:47,  5.12it/s]



 70%|███████████████████████████▏           | 1242/1784 [03:50<01:48,  4.99it/s]



 70%|███████████████████████████▎           | 1252/1784 [03:52<01:40,  5.30it/s]



 71%|███████████████████████████▌           | 1262/1784 [03:54<01:44,  4.98it/s]



 71%|███████████████████████████▊           | 1272/1784 [03:56<01:38,  5.19it/s]



 72%|████████████████████████████           | 1282/1784 [03:58<01:37,  5.13it/s]



 72%|████████████████████████████▏          | 1292/1784 [04:00<01:36,  5.11it/s]



 73%|████████████████████████████▍          | 1302/1784 [04:02<01:31,  5.27it/s]



 74%|████████████████████████████▋          | 1312/1784 [04:04<01:31,  5.18it/s]



 74%|████████████████████████████▉          | 1322/1784 [04:06<01:18,  5.87it/s]



 75%|█████████████████████████████          | 1332/1784 [04:08<01:22,  5.45it/s]



 75%|█████████████████████████████▎         | 1342/1784 [04:09<01:23,  5.31it/s]



 76%|█████████████████████████████▌         | 1352/1784 [04:11<01:17,  5.60it/s]



 76%|█████████████████████████████▊         | 1362/1784 [04:13<01:10,  5.98it/s]



 77%|█████████████████████████████▉         | 1372/1784 [04:15<01:14,  5.53it/s]



 77%|██████████████████████████████▏        | 1382/1784 [04:17<01:11,  5.61it/s]



 78%|██████████████████████████████▍        | 1392/1784 [04:18<01:09,  5.67it/s]



 79%|██████████████████████████████▋        | 1402/1784 [04:20<01:06,  5.70it/s]



 79%|██████████████████████████████▊        | 1412/1784 [04:22<01:04,  5.77it/s]



 80%|███████████████████████████████        | 1422/1784 [04:24<01:03,  5.70it/s]



 80%|███████████████████████████████▎       | 1432/1784 [04:25<01:06,  5.29it/s]



 81%|███████████████████████████████▌       | 1442/1784 [04:27<01:08,  4.98it/s]



 81%|███████████████████████████████▋       | 1452/1784 [04:29<01:06,  4.98it/s]



 82%|███████████████████████████████▉       | 1462/1784 [04:31<01:01,  5.26it/s]



 83%|████████████████████████████████▏      | 1472/1784 [04:33<01:00,  5.13it/s]



 83%|████████████████████████████████▍      | 1482/1784 [04:35<01:00,  5.00it/s]



 84%|████████████████████████████████▌      | 1492/1784 [04:37<00:57,  5.12it/s]



 84%|████████████████████████████████▊      | 1502/1784 [04:39<00:56,  5.01it/s]



 85%|█████████████████████████████████      | 1512/1784 [04:41<00:53,  5.05it/s]



 85%|█████████████████████████████████▎     | 1522/1784 [04:43<00:51,  5.05it/s]



 86%|█████████████████████████████████▍     | 1532/1784 [04:45<00:50,  4.95it/s]



 86%|█████████████████████████████████▋     | 1542/1784 [04:47<00:48,  5.04it/s]



 87%|█████████████████████████████████▉     | 1552/1784 [04:49<00:46,  4.99it/s]



 88%|██████████████████████████████████▏    | 1562/1784 [04:51<00:43,  5.13it/s]



 88%|██████████████████████████████████▎    | 1572/1784 [04:53<00:42,  4.98it/s]



 89%|██████████████████████████████████▌    | 1582/1784 [04:54<00:39,  5.15it/s]



 89%|██████████████████████████████████▊    | 1592/1784 [04:56<00:37,  5.17it/s]



 90%|███████████████████████████████████    | 1602/1784 [04:58<00:35,  5.11it/s]



 90%|███████████████████████████████████▏   | 1612/1784 [05:00<00:33,  5.20it/s]



 91%|███████████████████████████████████▍   | 1622/1784 [05:02<00:32,  4.93it/s]



 91%|███████████████████████████████████▋   | 1632/1784 [05:04<00:29,  5.12it/s]



 92%|███████████████████████████████████▉   | 1642/1784 [05:06<00:28,  5.03it/s]



 93%|████████████████████████████████████   | 1652/1784 [05:08<00:25,  5.15it/s]



 93%|████████████████████████████████████▎  | 1662/1784 [05:10<00:23,  5.11it/s]



 94%|████████████████████████████████████▌  | 1672/1784 [05:12<00:21,  5.09it/s]



 94%|████████████████████████████████████▊  | 1682/1784 [05:14<00:20,  4.88it/s]



 95%|████████████████████████████████████▉  | 1692/1784 [05:16<00:18,  5.02it/s]



 95%|█████████████████████████████████████▏ | 1702/1784 [05:18<00:16,  4.96it/s]



 96%|█████████████████████████████████████▍ | 1712/1784 [05:20<00:14,  5.09it/s]



 97%|█████████████████████████████████████▋ | 1722/1784 [05:22<00:12,  5.08it/s]



 97%|█████████████████████████████████████▊ | 1732/1784 [05:24<00:10,  5.01it/s]



 98%|██████████████████████████████████████ | 1742/1784 [05:26<00:08,  5.10it/s]



 98%|██████████████████████████████████████▎| 1752/1784 [05:27<00:06,  5.03it/s]



 99%|██████████████████████████████████████▌| 1762/1784 [05:29<00:04,  5.08it/s]



 99%|██████████████████████████████████████▋| 1772/1784 [05:31<00:02,  5.26it/s]



100%|██████████████████████████████████████▉| 1782/1784 [05:33<00:00,  5.07it/s]



100%|███████████████████████████████████████| 1784/1784 [05:34<00:00,  5.33it/s]


Beginning eval...


100%|█████████████████████████████████████████| 164/164 [00:13<00:00, 12.38it/s]


Epoch: 6, Test set: Average loss: 5.0253, Average CER: 0.929466 Average WER: 1.0054



  0%|                                          | 1/1784 [00:00<05:16,  5.63it/s]



  1%|▎                                        | 12/1784 [00:02<05:40,  5.21it/s]



  1%|▌                                        | 22/1784 [00:03<05:09,  5.70it/s]



  2%|▋                                        | 32/1784 [00:05<05:00,  5.83it/s]



  2%|▉                                        | 42/1784 [00:07<05:50,  4.97it/s]



  3%|█▏                                       | 52/1784 [00:09<05:41,  5.08it/s]



  3%|█▍                                       | 62/1784 [00:11<05:45,  4.98it/s]



  4%|█▋                                       | 72/1784 [00:13<05:37,  5.08it/s]



  5%|█▉                                       | 82/1784 [00:15<05:40,  5.00it/s]



  5%|██                                       | 92/1784 [00:17<05:31,  5.11it/s]



  6%|██▎                                     | 102/1784 [00:19<05:33,  5.05it/s]



  6%|██▌                                     | 112/1784 [00:21<05:24,  5.16it/s]



  7%|██▋                                     | 122/1784 [00:23<05:31,  5.01it/s]



  7%|██▉                                     | 132/1784 [00:25<05:29,  5.01it/s]



  8%|███▏                                    | 142/1784 [00:26<05:28,  5.00it/s]



  9%|███▍                                    | 152/1784 [00:28<05:24,  5.03it/s]



  9%|███▋                                    | 162/1784 [00:30<05:21,  5.04it/s]



 10%|███▊                                    | 172/1784 [00:32<05:32,  4.85it/s]



 10%|████                                    | 182/1784 [00:34<05:21,  4.99it/s]



 11%|████▎                                   | 192/1784 [00:36<05:19,  4.98it/s]



 11%|████▌                                   | 202/1784 [00:38<05:07,  5.14it/s]



 12%|████▊                                   | 212/1784 [00:40<05:16,  4.97it/s]



 12%|████▉                                   | 222/1784 [00:42<05:19,  4.88it/s]



 13%|█████▏                                  | 232/1784 [00:44<05:06,  5.06it/s]



 14%|█████▍                                  | 242/1784 [00:46<05:10,  4.96it/s]



 14%|█████▋                                  | 252/1784 [00:48<05:04,  5.03it/s]



 15%|█████▊                                  | 262/1784 [00:50<05:05,  4.98it/s]



 15%|██████                                  | 272/1784 [00:52<05:04,  4.97it/s]



 16%|██████▎                                 | 282/1784 [00:54<04:45,  5.26it/s]



 16%|██████▌                                 | 292/1784 [00:56<04:59,  4.98it/s]



 17%|██████▊                                 | 302/1784 [00:58<05:09,  4.79it/s]



 17%|██████▉                                 | 312/1784 [01:00<04:54,  5.00it/s]



 18%|███████▏                                | 322/1784 [01:02<04:55,  4.95it/s]



 19%|███████▍                                | 332/1784 [01:04<04:59,  4.84it/s]



 19%|███████▋                                | 342/1784 [01:06<04:41,  5.12it/s]



 20%|███████▉                                | 352/1784 [01:08<04:44,  5.03it/s]



 20%|████████                                | 362/1784 [01:10<04:42,  5.04it/s]



 21%|████████▎                               | 372/1784 [01:11<04:32,  5.17it/s]



 21%|████████▌                               | 382/1784 [01:13<04:45,  4.91it/s]



 22%|████████▊                               | 392/1784 [01:15<04:26,  5.21it/s]



 23%|█████████                               | 402/1784 [01:17<04:29,  5.13it/s]



 23%|█████████▏                              | 412/1784 [01:19<04:34,  4.99it/s]



 24%|█████████▍                              | 422/1784 [01:21<04:31,  5.02it/s]



 24%|█████████▋                              | 432/1784 [01:23<04:36,  4.89it/s]



 25%|█████████▉                              | 442/1784 [01:25<04:28,  4.99it/s]



 25%|██████████▏                             | 452/1784 [01:27<04:21,  5.10it/s]



 26%|██████████▎                             | 462/1784 [01:29<04:27,  4.93it/s]



 26%|██████████▌                             | 472/1784 [01:31<04:13,  5.17it/s]



 27%|██████████▊                             | 482/1784 [01:33<04:09,  5.22it/s]



 28%|███████████                             | 492/1784 [01:35<04:12,  5.13it/s]



 28%|███████████▎                            | 502/1784 [01:37<04:11,  5.10it/s]



 29%|███████████▍                            | 512/1784 [01:39<04:12,  5.03it/s]



 29%|███████████▋                            | 522/1784 [01:40<03:56,  5.34it/s]



 30%|███████████▉                            | 532/1784 [01:42<03:44,  5.59it/s]



 30%|████████████▏                           | 542/1784 [01:44<03:41,  5.61it/s]



 31%|████████████▍                           | 552/1784 [01:46<03:48,  5.40it/s]



 32%|████████████▌                           | 562/1784 [01:48<03:38,  5.59it/s]



 32%|████████████▊                           | 572/1784 [01:49<03:38,  5.55it/s]



 33%|█████████████                           | 582/1784 [01:51<03:40,  5.46it/s]



 33%|█████████████▎                          | 592/1784 [01:53<03:32,  5.60it/s]



 34%|█████████████▍                          | 602/1784 [01:55<03:26,  5.73it/s]



 34%|█████████████▋                          | 612/1784 [01:56<03:28,  5.63it/s]



 35%|█████████████▉                          | 622/1784 [01:58<03:18,  5.84it/s]



 35%|██████████████▏                         | 632/1784 [02:00<03:46,  5.08it/s]



 36%|██████████████▍                         | 642/1784 [02:02<03:48,  5.00it/s]



 37%|██████████████▌                         | 652/1784 [02:04<03:48,  4.95it/s]



 37%|██████████████▊                         | 662/1784 [02:06<03:45,  4.97it/s]



 38%|███████████████                         | 672/1784 [02:08<03:35,  5.17it/s]



 38%|███████████████▎                        | 682/1784 [02:10<03:30,  5.23it/s]



 39%|███████████████▌                        | 692/1784 [02:12<03:45,  4.84it/s]



 39%|███████████████▋                        | 702/1784 [02:14<03:22,  5.34it/s]



 40%|███████████████▉                        | 712/1784 [02:15<03:33,  5.01it/s]



 40%|████████████████▏                       | 722/1784 [02:17<03:25,  5.16it/s]



 41%|████████████████▍                       | 732/1784 [02:19<03:24,  5.13it/s]



 42%|████████████████▋                       | 742/1784 [02:21<03:28,  5.00it/s]



 42%|████████████████▊                       | 752/1784 [02:23<03:22,  5.11it/s]



 43%|█████████████████                       | 762/1784 [02:25<03:18,  5.15it/s]



 43%|█████████████████▎                      | 772/1784 [02:27<03:17,  5.13it/s]



 44%|█████████████████▌                      | 782/1784 [02:29<03:21,  4.98it/s]



 44%|█████████████████▊                      | 792/1784 [02:31<03:15,  5.07it/s]



 45%|█████████████████▉                      | 802/1784 [02:33<03:15,  5.03it/s]



 46%|██████████████████▏                     | 812/1784 [02:35<03:02,  5.33it/s]



 46%|██████████████████▍                     | 822/1784 [02:36<02:53,  5.54it/s]



 47%|██████████████████▋                     | 832/1784 [02:38<02:49,  5.61it/s]



 47%|██████████████████▉                     | 842/1784 [02:40<02:52,  5.46it/s]



 48%|███████████████████                     | 852/1784 [02:42<02:58,  5.23it/s]



 48%|███████████████████▎                    | 862/1784 [02:43<02:48,  5.46it/s]



 49%|███████████████████▌                    | 872/1784 [02:45<02:32,  5.97it/s]



 49%|███████████████████▊                    | 882/1784 [02:47<02:36,  5.78it/s]



 50%|████████████████████                    | 892/1784 [02:49<02:40,  5.54it/s]



 51%|████████████████████▏                   | 902/1784 [02:50<02:47,  5.26it/s]



 51%|████████████████████▍                   | 912/1784 [02:52<02:28,  5.88it/s]



 52%|████████████████████▋                   | 922/1784 [02:54<02:53,  4.97it/s]



 52%|████████████████████▉                   | 932/1784 [02:56<02:28,  5.74it/s]



 53%|█████████████████████                   | 942/1784 [02:58<02:39,  5.27it/s]



 53%|█████████████████████▎                  | 952/1784 [03:00<02:20,  5.92it/s]



 54%|█████████████████████▌                  | 962/1784 [03:01<02:34,  5.32it/s]



 54%|█████████████████████▊                  | 972/1784 [03:03<02:22,  5.68it/s]



 55%|██████████████████████                  | 982/1784 [03:05<02:21,  5.65it/s]



 56%|██████████████████████▏                 | 992/1784 [03:07<02:26,  5.41it/s]



 56%|█████████████████████▉                 | 1002/1784 [03:08<02:18,  5.65it/s]



 57%|██████████████████████                 | 1012/1784 [03:10<02:16,  5.64it/s]



 57%|██████████████████████▎                | 1022/1784 [03:12<02:15,  5.62it/s]



 58%|██████████████████████▌                | 1032/1784 [03:14<02:14,  5.60it/s]



 58%|██████████████████████▊                | 1042/1784 [03:15<02:08,  5.79it/s]



 59%|██████████████████████▉                | 1052/1784 [03:17<02:04,  5.89it/s]



 60%|███████████████████████▏               | 1062/1784 [03:19<02:22,  5.05it/s]



 60%|███████████████████████▍               | 1072/1784 [03:21<02:20,  5.07it/s]



 61%|███████████████████████▋               | 1082/1784 [03:23<02:15,  5.20it/s]



 61%|███████████████████████▊               | 1092/1784 [03:25<02:18,  4.99it/s]



 62%|████████████████████████               | 1102/1784 [03:27<02:13,  5.09it/s]



 62%|████████████████████████▎              | 1112/1784 [03:29<02:13,  5.03it/s]



 63%|████████████████████████▌              | 1122/1784 [03:31<02:11,  5.02it/s]



 63%|████████████████████████▋              | 1132/1784 [03:33<02:03,  5.27it/s]



 64%|████████████████████████▉              | 1142/1784 [03:34<02:08,  5.00it/s]



 65%|█████████████████████████▏             | 1152/1784 [03:36<02:01,  5.21it/s]



 65%|█████████████████████████▍             | 1162/1784 [03:38<01:57,  5.30it/s]



 66%|█████████████████████████▌             | 1172/1784 [03:40<02:03,  4.97it/s]



 66%|█████████████████████████▊             | 1182/1784 [03:42<01:49,  5.48it/s]



 67%|██████████████████████████             | 1192/1784 [03:43<01:44,  5.69it/s]



 67%|██████████████████████████▎            | 1202/1784 [03:45<01:46,  5.48it/s]



 68%|██████████████████████████▍            | 1212/1784 [03:47<01:42,  5.57it/s]



 68%|██████████████████████████▋            | 1222/1784 [03:49<01:39,  5.62it/s]



 69%|██████████████████████████▉            | 1232/1784 [03:50<01:32,  5.96it/s]



 70%|███████████████████████████▏           | 1242/1784 [03:52<01:35,  5.67it/s]



 70%|███████████████████████████▎           | 1252/1784 [03:54<01:37,  5.48it/s]



 71%|███████████████████████████▌           | 1262/1784 [03:56<01:34,  5.51it/s]



 71%|███████████████████████████▊           | 1272/1784 [03:58<01:44,  4.90it/s]



 72%|████████████████████████████           | 1282/1784 [04:00<01:39,  5.02it/s]



 72%|████████████████████████████▏          | 1292/1784 [04:02<01:38,  4.97it/s]



 73%|████████████████████████████▍          | 1302/1784 [04:03<01:33,  5.15it/s]



 74%|████████████████████████████▋          | 1312/1784 [04:05<01:31,  5.14it/s]



 74%|████████████████████████████▉          | 1322/1784 [04:07<01:21,  5.66it/s]



 75%|█████████████████████████████          | 1332/1784 [04:09<01:20,  5.62it/s]



 75%|█████████████████████████████▎         | 1342/1784 [04:11<01:20,  5.48it/s]



 76%|█████████████████████████████▌         | 1352/1784 [04:12<01:16,  5.64it/s]



 76%|█████████████████████████████▊         | 1362/1784 [04:14<01:14,  5.70it/s]



 77%|█████████████████████████████▉         | 1372/1784 [04:16<01:14,  5.52it/s]



 77%|██████████████████████████████▏        | 1382/1784 [04:18<01:07,  5.97it/s]



 78%|██████████████████████████████▍        | 1392/1784 [04:19<01:12,  5.39it/s]



 79%|██████████████████████████████▋        | 1402/1784 [04:21<01:09,  5.52it/s]



 79%|██████████████████████████████▊        | 1412/1784 [04:23<01:10,  5.28it/s]



 80%|███████████████████████████████        | 1422/1784 [04:25<01:06,  5.43it/s]



 80%|███████████████████████████████▎       | 1432/1784 [04:27<01:06,  5.29it/s]



 81%|███████████████████████████████▌       | 1442/1784 [04:29<01:06,  5.12it/s]



 81%|███████████████████████████████▋       | 1452/1784 [04:30<01:04,  5.15it/s]



 82%|███████████████████████████████▉       | 1462/1784 [04:32<01:05,  4.92it/s]



 83%|████████████████████████████████▏      | 1472/1784 [04:34<01:00,  5.16it/s]



 83%|████████████████████████████████▍      | 1482/1784 [04:36<00:57,  5.28it/s]



 84%|████████████████████████████████▌      | 1492/1784 [04:38<00:56,  5.15it/s]



 84%|████████████████████████████████▊      | 1502/1784 [04:40<00:53,  5.29it/s]



 85%|█████████████████████████████████      | 1512/1784 [04:42<00:51,  5.32it/s]



 85%|█████████████████████████████████▎     | 1522/1784 [04:44<00:50,  5.23it/s]



 86%|█████████████████████████████████▍     | 1532/1784 [04:46<00:46,  5.39it/s]



 86%|█████████████████████████████████▋     | 1542/1784 [04:48<00:49,  4.90it/s]



 87%|█████████████████████████████████▉     | 1552/1784 [04:50<00:44,  5.23it/s]



 88%|██████████████████████████████████▏    | 1562/1784 [04:51<00:44,  5.02it/s]



 88%|██████████████████████████████████▎    | 1572/1784 [04:53<00:40,  5.24it/s]



 89%|██████████████████████████████████▌    | 1582/1784 [04:55<00:40,  5.00it/s]



 89%|██████████████████████████████████▊    | 1592/1784 [04:57<00:37,  5.08it/s]



 90%|███████████████████████████████████    | 1602/1784 [04:59<00:37,  4.81it/s]



 90%|███████████████████████████████████▏   | 1612/1784 [05:01<00:33,  5.21it/s]



 91%|███████████████████████████████████▍   | 1622/1784 [05:03<00:32,  4.99it/s]



 91%|███████████████████████████████████▋   | 1632/1784 [05:05<00:28,  5.26it/s]



 92%|███████████████████████████████████▉   | 1642/1784 [05:07<00:27,  5.19it/s]



 93%|████████████████████████████████████   | 1652/1784 [05:09<00:24,  5.34it/s]



 93%|████████████████████████████████████▎  | 1662/1784 [05:11<00:23,  5.12it/s]



 94%|████████████████████████████████████▌  | 1672/1784 [05:13<00:21,  5.25it/s]



 94%|████████████████████████████████████▊  | 1682/1784 [05:15<00:20,  4.89it/s]



 95%|████████████████████████████████████▉  | 1692/1784 [05:16<00:18,  5.08it/s]



 95%|█████████████████████████████████████▏ | 1702/1784 [05:18<00:15,  5.21it/s]



 96%|█████████████████████████████████████▍ | 1712/1784 [05:20<00:13,  5.15it/s]



 97%|█████████████████████████████████████▋ | 1722/1784 [05:22<00:12,  5.15it/s]



 97%|█████████████████████████████████████▊ | 1732/1784 [05:24<00:10,  4.87it/s]



 98%|██████████████████████████████████████ | 1742/1784 [05:26<00:08,  5.17it/s]



 98%|██████████████████████████████████████▎| 1752/1784 [05:28<00:06,  5.18it/s]



 99%|██████████████████████████████████████▌| 1762/1784 [05:30<00:04,  5.13it/s]



 99%|██████████████████████████████████████▋| 1772/1784 [05:32<00:02,  5.00it/s]



100%|██████████████████████████████████████▉| 1782/1784 [05:34<00:00,  5.06it/s]



100%|███████████████████████████████████████| 1784/1784 [05:34<00:00,  5.33it/s]


Beginning eval...


100%|█████████████████████████████████████████| 164/164 [00:13<00:00, 12.22it/s]


Epoch: 7, Test set: Average loss: 5.0544, Average CER: 0.931977 Average WER: 1.0056



  0%|                                          | 1/1784 [00:00<04:53,  6.08it/s]



  1%|▎                                        | 12/1784 [00:02<05:35,  5.28it/s]



  1%|▌                                        | 22/1784 [00:03<05:14,  5.61it/s]



  2%|▋                                        | 32/1784 [00:05<05:07,  5.70it/s]



  2%|▉                                        | 42/1784 [00:07<05:33,  5.22it/s]



  3%|█▏                                       | 52/1784 [00:09<05:44,  5.03it/s]



  3%|█▍                                       | 62/1784 [00:11<05:41,  5.05it/s]



  4%|█▋                                       | 72/1784 [00:13<05:33,  5.14it/s]



  5%|█▉                                       | 82/1784 [00:15<05:40,  5.00it/s]



  5%|██                                       | 92/1784 [00:17<05:35,  5.04it/s]



  6%|██▎                                     | 102/1784 [00:19<05:29,  5.11it/s]



  6%|██▌                                     | 112/1784 [00:21<05:21,  5.20it/s]



  7%|██▋                                     | 122/1784 [00:22<05:31,  5.02it/s]



  7%|██▉                                     | 132/1784 [00:24<05:27,  5.05it/s]



  8%|███▏                                    | 142/1784 [00:26<05:09,  5.30it/s]



  9%|███▍                                    | 152/1784 [00:28<05:09,  5.27it/s]



  9%|███▋                                    | 162/1784 [00:30<05:21,  5.04it/s]



 10%|███▊                                    | 172/1784 [00:32<05:18,  5.05it/s]



 10%|████                                    | 182/1784 [00:34<05:04,  5.27it/s]



 11%|████▎                                   | 192/1784 [00:36<05:29,  4.84it/s]



 11%|████▌                                   | 202/1784 [00:38<05:19,  4.96it/s]



 12%|████▊                                   | 212/1784 [00:40<05:25,  4.83it/s]



 12%|████▉                                   | 221/1784 [00:42<05:25,  4.81it/s]



 13%|█████▏                                  | 232/1784 [00:44<04:59,  5.19it/s]



 14%|█████▍                                  | 242/1784 [00:46<04:51,  5.29it/s]



 14%|█████▋                                  | 252/1784 [00:48<05:03,  5.05it/s]



 15%|█████▊                                  | 262/1784 [00:49<04:56,  5.14it/s]



 15%|██████                                  | 272/1784 [00:51<05:08,  4.90it/s]



 16%|██████▎                                 | 282/1784 [00:53<04:59,  5.01it/s]



 16%|██████▌                                 | 292/1784 [00:55<04:49,  5.15it/s]



 17%|██████▊                                 | 302/1784 [00:57<04:50,  5.09it/s]



 17%|██████▉                                 | 312/1784 [00:59<04:42,  5.21it/s]



 18%|███████▏                                | 322/1784 [01:01<04:49,  5.04it/s]



 19%|███████▍                                | 332/1784 [01:03<04:47,  5.06it/s]



 19%|███████▋                                | 342/1784 [01:05<04:44,  5.07it/s]



 20%|███████▉                                | 352/1784 [01:07<04:45,  5.02it/s]



 20%|████████                                | 362/1784 [01:09<04:34,  5.17it/s]



 21%|████████▎                               | 372/1784 [01:11<04:42,  4.99it/s]



 21%|████████▌                               | 382/1784 [01:13<04:37,  5.04it/s]



 22%|████████▊                               | 392/1784 [01:14<04:31,  5.13it/s]



 23%|█████████                               | 402/1784 [01:16<04:28,  5.15it/s]



 23%|█████████▏                              | 412/1784 [01:18<04:29,  5.10it/s]



 24%|█████████▍                              | 422/1784 [01:20<04:33,  4.98it/s]



 24%|█████████▋                              | 432/1784 [01:22<04:34,  4.93it/s]



 25%|█████████▉                              | 442/1784 [01:24<04:27,  5.02it/s]



 25%|██████████▏                             | 452/1784 [01:26<04:20,  5.12it/s]



 26%|██████████▎                             | 462/1784 [01:28<04:28,  4.93it/s]



 26%|██████████▌                             | 472/1784 [01:30<04:10,  5.24it/s]



 27%|██████████▊                             | 482/1784 [01:32<04:14,  5.12it/s]



 28%|███████████                             | 492/1784 [01:34<04:19,  4.98it/s]



 28%|███████████▎                            | 502/1784 [01:36<04:11,  5.10it/s]



 29%|███████████▍                            | 512/1784 [01:38<04:19,  4.91it/s]



 29%|███████████▋                            | 522/1784 [01:40<04:15,  4.94it/s]



 30%|███████████▉                            | 532/1784 [01:41<04:07,  5.06it/s]



 30%|████████████▏                           | 542/1784 [01:43<03:56,  5.24it/s]



 31%|████████████▍                           | 552/1784 [01:45<03:56,  5.21it/s]



 32%|████████████▌                           | 562/1784 [01:47<03:54,  5.21it/s]



 32%|████████████▊                           | 572/1784 [01:49<04:00,  5.04it/s]



 33%|█████████████                           | 582/1784 [01:51<04:05,  4.89it/s]



 33%|█████████████▎                          | 592/1784 [01:53<03:48,  5.21it/s]



 34%|█████████████▍                          | 602/1784 [01:55<03:48,  5.18it/s]



 34%|█████████████▋                          | 612/1784 [01:57<03:52,  5.04it/s]



 35%|█████████████▉                          | 622/1784 [01:59<03:47,  5.10it/s]



 35%|██████████████▏                         | 632/1784 [02:00<03:41,  5.20it/s]



 36%|██████████████▍                         | 642/1784 [02:02<03:48,  5.01it/s]



 37%|██████████████▌                         | 652/1784 [02:04<03:43,  5.07it/s]



 37%|██████████████▊                         | 662/1784 [02:06<03:32,  5.27it/s]



 38%|███████████████                         | 672/1784 [02:08<03:35,  5.15it/s]



 38%|███████████████▎                        | 682/1784 [02:10<03:35,  5.12it/s]



 39%|███████████████▌                        | 692/1784 [02:12<03:29,  5.20it/s]



 39%|███████████████▋                        | 702/1784 [02:14<03:28,  5.18it/s]



 40%|███████████████▉                        | 712/1784 [02:16<03:24,  5.25it/s]



 40%|████████████████▏                       | 722/1784 [02:18<03:33,  4.97it/s]



 41%|████████████████▍                       | 732/1784 [02:20<03:21,  5.23it/s]



 42%|████████████████▋                       | 742/1784 [02:22<03:23,  5.13it/s]



 42%|████████████████▊                       | 752/1784 [02:23<03:19,  5.16it/s]



 43%|█████████████████                       | 762/1784 [02:25<03:19,  5.11it/s]



 43%|█████████████████▎                      | 772/1784 [02:27<03:15,  5.19it/s]



 44%|█████████████████▌                      | 782/1784 [02:29<03:23,  4.93it/s]



 44%|█████████████████▊                      | 792/1784 [02:31<03:19,  4.97it/s]



 45%|█████████████████▉                      | 802/1784 [02:33<03:19,  4.92it/s]



 46%|██████████████████▏                     | 812/1784 [02:35<03:17,  4.91it/s]



 46%|██████████████████▍                     | 822/1784 [02:37<03:08,  5.10it/s]



 47%|██████████████████▋                     | 832/1784 [02:39<03:14,  4.88it/s]



 47%|██████████████████▉                     | 842/1784 [02:41<03:03,  5.12it/s]



 48%|███████████████████                     | 852/1784 [02:43<03:05,  5.01it/s]



 48%|███████████████████▎                    | 862/1784 [02:45<02:56,  5.23it/s]



 49%|███████████████████▌                    | 872/1784 [02:47<03:00,  5.05it/s]



 49%|███████████████████▊                    | 882/1784 [02:48<02:58,  5.06it/s]



 50%|████████████████████                    | 892/1784 [02:50<02:52,  5.18it/s]



 51%|████████████████████▏                   | 902/1784 [02:52<02:56,  5.01it/s]



 51%|████████████████████▍                   | 912/1784 [02:54<02:51,  5.09it/s]



 52%|████████████████████▋                   | 922/1784 [02:56<02:51,  5.01it/s]



 52%|████████████████████▉                   | 932/1784 [02:58<02:41,  5.27it/s]



 53%|█████████████████████                   | 942/1784 [03:00<02:46,  5.04it/s]



 53%|█████████████████████▎                  | 952/1784 [03:02<02:41,  5.15it/s]



 54%|█████████████████████▌                  | 962/1784 [03:04<02:42,  5.06it/s]



 54%|█████████████████████▊                  | 972/1784 [03:06<02:42,  5.00it/s]



 55%|██████████████████████                  | 982/1784 [03:08<02:49,  4.74it/s]



 56%|██████████████████████▏                 | 992/1784 [03:10<02:24,  5.49it/s]



 56%|█████████████████████▉                 | 1002/1784 [03:11<02:24,  5.42it/s]



 57%|██████████████████████                 | 1012/1784 [03:13<02:16,  5.65it/s]



 57%|██████████████████████▎                | 1022/1784 [03:15<02:19,  5.46it/s]



 58%|██████████████████████▌                | 1032/1784 [03:17<02:17,  5.48it/s]



 58%|██████████████████████▊                | 1042/1784 [03:19<02:13,  5.54it/s]



 59%|██████████████████████▉                | 1052/1784 [03:20<02:15,  5.40it/s]



 60%|███████████████████████▏               | 1062/1784 [03:22<02:10,  5.55it/s]



 60%|███████████████████████▍               | 1072/1784 [03:24<02:10,  5.48it/s]



 61%|███████████████████████▋               | 1082/1784 [03:26<02:07,  5.51it/s]



 61%|███████████████████████▊               | 1092/1784 [03:28<02:11,  5.28it/s]



 62%|████████████████████████               | 1102/1784 [03:30<02:09,  5.27it/s]



 62%|████████████████████████▎              | 1112/1784 [03:31<02:09,  5.17it/s]



 63%|████████████████████████▌              | 1122/1784 [03:33<02:08,  5.14it/s]



 63%|████████████████████████▋              | 1132/1784 [03:35<02:14,  4.84it/s]



 64%|████████████████████████▉              | 1142/1784 [03:37<02:02,  5.24it/s]



 65%|█████████████████████████▏             | 1152/1784 [03:39<02:02,  5.17it/s]



 65%|█████████████████████████▍             | 1162/1784 [03:41<01:59,  5.22it/s]



 66%|█████████████████████████▌             | 1172/1784 [03:43<02:00,  5.06it/s]



 66%|█████████████████████████▊             | 1182/1784 [03:45<02:00,  4.98it/s]



 67%|██████████████████████████             | 1192/1784 [03:47<01:54,  5.18it/s]



 67%|██████████████████████████▎            | 1202/1784 [03:49<01:58,  4.93it/s]



 68%|██████████████████████████▍            | 1212/1784 [03:51<01:51,  5.12it/s]



 68%|██████████████████████████▋            | 1222/1784 [03:53<01:55,  4.89it/s]



 69%|██████████████████████████▉            | 1232/1784 [03:55<01:52,  4.92it/s]



 70%|███████████████████████████▏           | 1242/1784 [03:56<01:43,  5.22it/s]



 70%|███████████████████████████▎           | 1252/1784 [03:58<01:41,  5.23it/s]



 71%|███████████████████████████▌           | 1262/1784 [04:00<01:41,  5.13it/s]



 71%|███████████████████████████▊           | 1272/1784 [04:02<01:46,  4.81it/s]



 72%|████████████████████████████           | 1282/1784 [04:04<01:38,  5.10it/s]



 72%|████████████████████████████▏          | 1292/1784 [04:06<01:38,  4.99it/s]



 73%|████████████████████████████▍          | 1302/1784 [04:08<01:32,  5.22it/s]



 74%|████████████████████████████▋          | 1312/1784 [04:10<01:47,  4.40it/s]



 74%|████████████████████████████▉          | 1322/1784 [04:12<01:27,  5.30it/s]



 75%|█████████████████████████████          | 1332/1784 [04:14<01:25,  5.31it/s]



 75%|█████████████████████████████▎         | 1342/1784 [04:16<01:23,  5.30it/s]



 76%|█████████████████████████████▌         | 1352/1784 [04:17<01:17,  5.54it/s]



 76%|█████████████████████████████▊         | 1362/1784 [04:19<01:18,  5.35it/s]



 77%|█████████████████████████████▉         | 1372/1784 [04:21<01:15,  5.44it/s]



 77%|██████████████████████████████▏        | 1382/1784 [04:23<01:13,  5.44it/s]



 78%|██████████████████████████████▍        | 1392/1784 [04:25<01:09,  5.67it/s]



 79%|██████████████████████████████▋        | 1402/1784 [04:26<01:08,  5.59it/s]



 79%|██████████████████████████████▊        | 1412/1784 [04:28<01:04,  5.74it/s]



 80%|███████████████████████████████        | 1422/1784 [04:30<01:06,  5.42it/s]



 80%|███████████████████████████████▎       | 1432/1784 [04:32<01:10,  4.98it/s]



 81%|███████████████████████████████▌       | 1442/1784 [04:34<01:06,  5.18it/s]



 81%|███████████████████████████████▋       | 1452/1784 [04:36<01:06,  4.99it/s]



 82%|███████████████████████████████▉       | 1462/1784 [04:38<01:03,  5.05it/s]



 83%|████████████████████████████████▏      | 1472/1784 [04:39<01:02,  5.02it/s]



 83%|████████████████████████████████▍      | 1482/1784 [04:41<01:00,  4.99it/s]



 84%|████████████████████████████████▌      | 1492/1784 [04:43<00:58,  5.03it/s]



 84%|████████████████████████████████▊      | 1502/1784 [04:45<00:55,  5.08it/s]



 85%|█████████████████████████████████      | 1512/1784 [04:47<00:54,  5.01it/s]



 85%|█████████████████████████████████▎     | 1522/1784 [04:49<00:52,  4.98it/s]



 86%|█████████████████████████████████▍     | 1532/1784 [04:51<00:49,  5.07it/s]



 86%|█████████████████████████████████▋     | 1542/1784 [04:53<00:45,  5.29it/s]



 87%|█████████████████████████████████▉     | 1552/1784 [04:55<00:40,  5.71it/s]



 88%|██████████████████████████████████▏    | 1562/1784 [04:56<00:40,  5.45it/s]



 88%|██████████████████████████████████▎    | 1572/1784 [04:58<00:35,  5.94it/s]



 89%|██████████████████████████████████▌    | 1582/1784 [05:00<00:37,  5.46it/s]



 89%|██████████████████████████████████▊    | 1592/1784 [05:02<00:33,  5.65it/s]



 90%|███████████████████████████████████    | 1602/1784 [05:03<00:34,  5.24it/s]



 90%|███████████████████████████████████▏   | 1612/1784 [05:05<00:32,  5.34it/s]



 91%|███████████████████████████████████▍   | 1622/1784 [05:07<00:28,  5.72it/s]



 91%|███████████████████████████████████▋   | 1632/1784 [05:09<00:27,  5.47it/s]



 92%|███████████████████████████████████▉   | 1642/1784 [05:11<00:25,  5.49it/s]



 93%|████████████████████████████████████   | 1652/1784 [05:12<00:26,  4.91it/s]



 93%|████████████████████████████████████▎  | 1662/1784 [05:14<00:24,  5.05it/s]



 94%|████████████████████████████████████▌  | 1672/1784 [05:16<00:21,  5.28it/s]



 94%|████████████████████████████████████▊  | 1682/1784 [05:18<00:20,  4.87it/s]



 95%|████████████████████████████████████▉  | 1692/1784 [05:20<00:18,  4.88it/s]



 95%|█████████████████████████████████████▏ | 1702/1784 [05:22<00:16,  4.97it/s]



 96%|█████████████████████████████████████▍ | 1712/1784 [05:24<00:14,  5.01it/s]



 97%|█████████████████████████████████████▋ | 1722/1784 [05:26<00:11,  5.26it/s]



 97%|█████████████████████████████████████▊ | 1732/1784 [05:28<00:10,  4.89it/s]



 98%|██████████████████████████████████████ | 1742/1784 [05:30<00:08,  4.83it/s]



 98%|██████████████████████████████████████▎| 1752/1784 [05:32<00:06,  4.91it/s]



 99%|██████████████████████████████████████▌| 1762/1784 [05:34<00:04,  5.11it/s]



 99%|██████████████████████████████████████▋| 1772/1784 [05:36<00:02,  5.05it/s]



100%|██████████████████████████████████████▉| 1782/1784 [05:38<00:00,  5.03it/s]



100%|███████████████████████████████████████| 1784/1784 [05:38<00:00,  5.26it/s]


Beginning eval...


100%|█████████████████████████████████████████| 164/164 [00:13<00:00, 11.97it/s]


Epoch: 8, Test set: Average loss: 5.0998, Average CER: 0.929092 Average WER: 1.0055



  0%|                                          | 2/1784 [00:00<05:26,  5.46it/s]



  1%|▎                                        | 12/1784 [00:02<05:32,  5.33it/s]



  1%|▌                                        | 22/1784 [00:04<05:21,  5.49it/s]



  2%|▋                                        | 32/1784 [00:05<05:27,  5.35it/s]



  2%|▉                                        | 42/1784 [00:07<05:34,  5.21it/s]



  3%|█▏                                       | 52/1784 [00:09<05:36,  5.14it/s]



  3%|█▍                                       | 62/1784 [00:11<05:50,  4.92it/s]



  4%|█▋                                       | 72/1784 [00:13<05:23,  5.30it/s]



  5%|█▉                                       | 82/1784 [00:15<05:13,  5.43it/s]



  5%|██                                       | 92/1784 [00:17<05:10,  5.45it/s]



  6%|██▎                                     | 102/1784 [00:18<05:16,  5.32it/s]



  6%|██▌                                     | 112/1784 [00:20<05:19,  5.24it/s]



  7%|██▋                                     | 122/1784 [00:22<05:05,  5.43it/s]



  7%|██▉                                     | 132/1784 [00:24<05:08,  5.36it/s]



  8%|███▏                                    | 142/1784 [00:26<05:14,  5.23it/s]



  9%|███▍                                    | 152/1784 [00:28<04:55,  5.52it/s]



  9%|███▋                                    | 162/1784 [00:29<04:44,  5.71it/s]



 10%|███▊                                    | 172/1784 [00:31<04:52,  5.52it/s]



 10%|████                                    | 182/1784 [00:33<05:27,  4.89it/s]



 11%|████▎                                   | 192/1784 [00:35<05:24,  4.91it/s]



 11%|████▌                                   | 202/1784 [00:37<05:07,  5.15it/s]



 12%|████▊                                   | 212/1784 [00:39<05:05,  5.15it/s]



 12%|████▉                                   | 222/1784 [00:41<05:16,  4.94it/s]



 13%|█████▏                                  | 232/1784 [00:43<05:10,  5.00it/s]



 14%|█████▍                                  | 242/1784 [00:45<05:17,  4.85it/s]



 14%|█████▋                                  | 252/1784 [00:47<05:06,  5.00it/s]



 15%|█████▊                                  | 262/1784 [00:49<05:13,  4.86it/s]



 15%|██████                                  | 272/1784 [00:51<04:57,  5.08it/s]



 16%|██████▎                                 | 282/1784 [00:53<05:07,  4.88it/s]



 16%|██████▌                                 | 292/1784 [00:55<04:46,  5.21it/s]



 17%|██████▊                                 | 302/1784 [00:56<04:31,  5.46it/s]



 17%|██████▉                                 | 312/1784 [00:58<04:50,  5.06it/s]



 18%|███████▏                                | 322/1784 [01:00<04:32,  5.37it/s]



 19%|███████▍                                | 332/1784 [01:02<04:27,  5.42it/s]



 19%|███████▋                                | 342/1784 [01:04<04:10,  5.75it/s]



 20%|███████▉                                | 352/1784 [01:05<04:25,  5.40it/s]



 20%|████████                                | 362/1784 [01:07<04:18,  5.51it/s]



 21%|████████▎                               | 372/1784 [01:09<04:21,  5.39it/s]



 21%|████████▌                               | 382/1784 [01:11<04:35,  5.09it/s]



 22%|████████▊                               | 392/1784 [01:13<04:13,  5.50it/s]



 23%|█████████                               | 402/1784 [01:14<04:05,  5.63it/s]



 23%|█████████▏                              | 412/1784 [01:16<04:37,  4.94it/s]



 24%|█████████▍                              | 422/1784 [01:18<04:27,  5.09it/s]



 24%|█████████▋                              | 432/1784 [01:20<04:22,  5.15it/s]



 25%|█████████▉                              | 442/1784 [01:22<04:38,  4.82it/s]



 25%|██████████▏                             | 452/1784 [01:24<04:31,  4.91it/s]



 26%|██████████▎                             | 462/1784 [01:26<04:19,  5.10it/s]



 26%|██████████▌                             | 471/1784 [01:28<04:32,  4.82it/s]



 27%|██████████▊                             | 482/1784 [01:30<04:20,  4.99it/s]



 28%|███████████                             | 492/1784 [01:32<04:14,  5.08it/s]



 28%|███████████▎                            | 502/1784 [01:34<04:17,  4.97it/s]



 29%|███████████▍                            | 512/1784 [01:36<04:10,  5.09it/s]



 29%|███████████▋                            | 522/1784 [01:38<04:04,  5.16it/s]



 30%|███████████▉                            | 532/1784 [01:40<04:11,  4.98it/s]



 30%|████████████▏                           | 542/1784 [01:42<04:00,  5.16it/s]



 31%|████████████▍                           | 552/1784 [01:43<03:33,  5.77it/s]



 32%|████████████▌                           | 562/1784 [01:45<03:46,  5.38it/s]



 32%|████████████▊                           | 572/1784 [01:47<03:47,  5.33it/s]



 33%|█████████████                           | 582/1784 [01:49<03:36,  5.55it/s]



 33%|█████████████▎                          | 592/1784 [01:51<03:44,  5.32it/s]



 34%|█████████████▍                          | 602/1784 [01:53<03:41,  5.34it/s]



 34%|█████████████▋                          | 612/1784 [01:54<03:37,  5.38it/s]



 35%|█████████████▉                          | 622/1784 [01:56<03:38,  5.32it/s]



 35%|██████████████▏                         | 632/1784 [01:58<03:41,  5.20it/s]



 36%|██████████████▍                         | 642/1784 [02:00<03:31,  5.41it/s]



 37%|██████████████▌                         | 652/1784 [02:02<03:23,  5.55it/s]



 37%|██████████████▊                         | 662/1784 [02:04<03:44,  4.99it/s]



 38%|███████████████                         | 672/1784 [02:05<03:36,  5.15it/s]



 38%|███████████████▎                        | 682/1784 [02:07<03:34,  5.15it/s]



 39%|███████████████▌                        | 692/1784 [02:09<03:34,  5.08it/s]



 39%|███████████████▋                        | 702/1784 [02:11<03:28,  5.19it/s]



 40%|███████████████▉                        | 712/1784 [02:13<03:30,  5.09it/s]



 40%|████████████████▏                       | 722/1784 [02:15<03:44,  4.74it/s]



 41%|████████████████▍                       | 732/1784 [02:17<03:26,  5.09it/s]



 42%|████████████████▋                       | 742/1784 [02:19<03:31,  4.92it/s]



 42%|████████████████▊                       | 752/1784 [02:21<03:22,  5.10it/s]



 43%|█████████████████                       | 762/1784 [02:23<03:10,  5.36it/s]



 43%|█████████████████▎                      | 772/1784 [02:25<03:15,  5.17it/s]



 44%|█████████████████▌                      | 782/1784 [02:26<02:57,  5.64it/s]



 44%|█████████████████▊                      | 792/1784 [02:28<02:59,  5.53it/s]



 45%|█████████████████▉                      | 802/1784 [02:30<02:58,  5.50it/s]



 46%|██████████████████▏                     | 812/1784 [02:32<02:56,  5.51it/s]



 46%|██████████████████▍                     | 822/1784 [02:34<02:59,  5.37it/s]



 47%|██████████████████▋                     | 832/1784 [02:35<03:01,  5.25it/s]



 47%|██████████████████▉                     | 842/1784 [02:37<02:50,  5.53it/s]



 48%|███████████████████                     | 852/1784 [02:39<02:57,  5.25it/s]



 48%|███████████████████▎                    | 862/1784 [02:41<03:08,  4.88it/s]



 49%|███████████████████▌                    | 872/1784 [02:43<03:08,  4.83it/s]



 49%|███████████████████▊                    | 882/1784 [02:45<03:00,  5.00it/s]



 50%|████████████████████                    | 892/1784 [02:47<03:02,  4.89it/s]



 51%|████████████████████▏                   | 902/1784 [02:49<03:03,  4.80it/s]



 51%|████████████████████▍                   | 912/1784 [02:51<02:40,  5.42it/s]



 52%|████████████████████▋                   | 922/1784 [02:52<02:38,  5.45it/s]



 52%|████████████████████▉                   | 932/1784 [02:54<02:38,  5.38it/s]



 53%|█████████████████████                   | 942/1784 [02:56<02:27,  5.71it/s]



 53%|█████████████████████▎                  | 952/1784 [02:58<02:36,  5.32it/s]



 54%|█████████████████████▌                  | 962/1784 [03:00<02:33,  5.37it/s]



 54%|█████████████████████▊                  | 972/1784 [03:01<02:33,  5.28it/s]



 55%|██████████████████████                  | 982/1784 [03:04<02:29,  5.38it/s]



 56%|██████████████████████▏                 | 992/1784 [03:05<02:20,  5.63it/s]



 56%|█████████████████████▉                 | 1002/1784 [03:07<02:25,  5.36it/s]



 57%|██████████████████████                 | 1012/1784 [03:09<02:20,  5.50it/s]



 57%|██████████████████████▎                | 1022/1784 [03:11<02:21,  5.39it/s]



 58%|██████████████████████▌                | 1032/1784 [03:12<02:17,  5.48it/s]



 58%|██████████████████████▊                | 1042/1784 [03:14<02:18,  5.34it/s]



 59%|██████████████████████▉                | 1052/1784 [03:16<02:15,  5.39it/s]



 60%|███████████████████████▏               | 1062/1784 [03:18<02:07,  5.68it/s]



 60%|███████████████████████▍               | 1072/1784 [03:19<02:05,  5.69it/s]



 61%|███████████████████████▋               | 1082/1784 [03:21<02:05,  5.61it/s]



 61%|███████████████████████▊               | 1092/1784 [03:23<02:17,  5.03it/s]



 62%|████████████████████████               | 1102/1784 [03:25<02:19,  4.89it/s]



 62%|████████████████████████▎              | 1112/1784 [03:27<02:17,  4.88it/s]



 63%|████████████████████████▌              | 1122/1784 [03:29<02:13,  4.97it/s]



 63%|████████████████████████▋              | 1132/1784 [03:31<02:02,  5.31it/s]



 64%|████████████████████████▉              | 1142/1784 [03:33<02:11,  4.89it/s]



 65%|█████████████████████████▏             | 1152/1784 [03:35<02:01,  5.22it/s]



 65%|█████████████████████████▍             | 1162/1784 [03:37<02:00,  5.14it/s]



 66%|█████████████████████████▌             | 1172/1784 [03:39<02:00,  5.06it/s]



 66%|█████████████████████████▊             | 1182/1784 [03:41<02:01,  4.96it/s]



 67%|██████████████████████████             | 1192/1784 [03:43<02:00,  4.93it/s]



 67%|██████████████████████████▎            | 1202/1784 [03:44<01:57,  4.97it/s]



 68%|██████████████████████████▍            | 1212/1784 [03:46<01:59,  4.78it/s]



 68%|██████████████████████████▋            | 1222/1784 [03:48<01:51,  5.03it/s]



 69%|██████████████████████████▉            | 1232/1784 [03:50<01:45,  5.22it/s]



 70%|███████████████████████████▏           | 1242/1784 [03:52<01:42,  5.26it/s]



 70%|███████████████████████████▎           | 1252/1784 [03:54<01:36,  5.50it/s]



 71%|███████████████████████████▌           | 1262/1784 [03:56<01:35,  5.45it/s]



 71%|███████████████████████████▊           | 1272/1784 [03:57<01:35,  5.36it/s]



 72%|████████████████████████████           | 1282/1784 [03:59<01:28,  5.68it/s]



 72%|████████████████████████████▏          | 1292/1784 [04:01<01:30,  5.41it/s]



 73%|████████████████████████████▍          | 1302/1784 [04:03<01:30,  5.33it/s]



 74%|████████████████████████████▋          | 1312/1784 [04:05<01:27,  5.38it/s]



 74%|████████████████████████████▉          | 1322/1784 [04:06<01:24,  5.48it/s]



 75%|█████████████████████████████          | 1332/1784 [04:08<01:26,  5.25it/s]



 75%|█████████████████████████████▎         | 1342/1784 [04:10<01:23,  5.26it/s]



 76%|█████████████████████████████▌         | 1352/1784 [04:12<01:17,  5.55it/s]



 76%|█████████████████████████████▊         | 1362/1784 [04:14<01:17,  5.43it/s]



 77%|█████████████████████████████▉         | 1372/1784 [04:15<01:16,  5.36it/s]



 77%|██████████████████████████████▏        | 1382/1784 [04:17<01:14,  5.42it/s]



 78%|██████████████████████████████▍        | 1392/1784 [04:19<01:16,  5.15it/s]



 79%|██████████████████████████████▋        | 1402/1784 [04:21<01:08,  5.59it/s]



 79%|██████████████████████████████▊        | 1412/1784 [04:23<01:08,  5.42it/s]



 80%|███████████████████████████████        | 1422/1784 [04:25<01:07,  5.34it/s]



 80%|███████████████████████████████▎       | 1432/1784 [04:26<01:04,  5.47it/s]



 81%|███████████████████████████████▌       | 1442/1784 [04:28<01:07,  5.07it/s]



 81%|███████████████████████████████▋       | 1452/1784 [04:30<01:04,  5.13it/s]



 82%|███████████████████████████████▉       | 1462/1784 [04:32<01:03,  5.07it/s]



 83%|████████████████████████████████▏      | 1472/1784 [04:34<01:02,  4.99it/s]



 83%|████████████████████████████████▍      | 1482/1784 [04:36<00:59,  5.07it/s]



 84%|████████████████████████████████▌      | 1492/1784 [04:38<00:57,  5.07it/s]



 84%|████████████████████████████████▊      | 1502/1784 [04:40<00:57,  4.91it/s]



 85%|█████████████████████████████████      | 1512/1784 [04:42<00:54,  5.01it/s]



 85%|█████████████████████████████████▎     | 1522/1784 [04:44<00:47,  5.53it/s]



 86%|█████████████████████████████████▍     | 1532/1784 [04:45<00:46,  5.40it/s]



 86%|█████████████████████████████████▋     | 1542/1784 [04:47<00:42,  5.70it/s]



 87%|█████████████████████████████████▉     | 1552/1784 [04:49<00:41,  5.56it/s]



 88%|██████████████████████████████████▏    | 1562/1784 [04:51<00:39,  5.65it/s]



 88%|██████████████████████████████████▎    | 1572/1784 [04:53<00:39,  5.35it/s]



 89%|██████████████████████████████████▌    | 1582/1784 [04:54<00:38,  5.30it/s]



 89%|██████████████████████████████████▊    | 1592/1784 [04:56<00:35,  5.35it/s]



 90%|███████████████████████████████████    | 1602/1784 [04:58<00:33,  5.46it/s]



 90%|███████████████████████████████████▏   | 1612/1784 [05:00<00:33,  5.21it/s]



 91%|███████████████████████████████████▍   | 1622/1784 [05:01<00:29,  5.57it/s]



 91%|███████████████████████████████████▋   | 1632/1784 [05:03<00:30,  5.06it/s]



 92%|███████████████████████████████████▉   | 1642/1784 [05:05<00:27,  5.19it/s]



 93%|████████████████████████████████████   | 1652/1784 [05:07<00:26,  4.97it/s]



 93%|████████████████████████████████████▎  | 1662/1784 [05:09<00:23,  5.16it/s]



 94%|████████████████████████████████████▌  | 1672/1784 [05:11<00:22,  4.97it/s]



 94%|████████████████████████████████████▊  | 1682/1784 [05:13<00:20,  4.95it/s]



 95%|████████████████████████████████████▉  | 1692/1784 [05:15<00:18,  5.00it/s]



 95%|█████████████████████████████████████▏ | 1702/1784 [05:17<00:15,  5.19it/s]



 96%|█████████████████████████████████████▍ | 1712/1784 [05:19<00:14,  5.03it/s]



 97%|█████████████████████████████████████▋ | 1722/1784 [05:21<00:12,  4.99it/s]



 97%|█████████████████████████████████████▊ | 1732/1784 [05:23<00:10,  4.76it/s]



 98%|██████████████████████████████████████ | 1742/1784 [05:25<00:08,  4.95it/s]



 98%|██████████████████████████████████████▎| 1752/1784 [05:27<00:06,  5.16it/s]



 99%|██████████████████████████████████████▌| 1762/1784 [05:29<00:04,  4.97it/s]



 99%|██████████████████████████████████████▋| 1772/1784 [05:31<00:02,  5.04it/s]



100%|██████████████████████████████████████▉| 1782/1784 [05:32<00:00,  5.04it/s]



100%|███████████████████████████████████████| 1784/1784 [05:33<00:00,  5.35it/s]


Beginning eval...


100%|█████████████████████████████████████████| 164/164 [00:14<00:00, 11.61it/s]


Epoch: 9, Test set: Average loss: 4.9971, Average CER: 0.930593 Average WER: 1.0054



  0%|                                          | 1/1784 [00:00<05:49,  5.10it/s]



  1%|▎                                        | 12/1784 [00:02<05:38,  5.24it/s]



  1%|▌                                        | 22/1784 [00:04<05:27,  5.38it/s]



  2%|▋                                        | 32/1784 [00:05<05:26,  5.36it/s]



  2%|▉                                        | 42/1784 [00:07<05:26,  5.33it/s]



  3%|█▏                                       | 52/1784 [00:09<05:42,  5.06it/s]



  3%|█▍                                       | 62/1784 [00:11<05:43,  5.01it/s]



  4%|█▋                                       | 72/1784 [00:13<05:57,  4.79it/s]



  5%|█▉                                       | 82/1784 [00:15<05:48,  4.88it/s]



  5%|██                                       | 92/1784 [00:17<05:26,  5.17it/s]



  6%|██▎                                     | 102/1784 [00:19<05:20,  5.24it/s]



  6%|██▌                                     | 112/1784 [00:21<05:31,  5.04it/s]



  7%|██▋                                     | 122/1784 [00:23<05:30,  5.02it/s]



  7%|██▉                                     | 132/1784 [00:25<05:28,  5.03it/s]



  8%|███▏                                    | 142/1784 [00:27<05:51,  4.67it/s]



  9%|███▍                                    | 152/1784 [00:29<05:40,  4.80it/s]



  9%|███▋                                    | 162/1784 [00:31<05:42,  4.73it/s]



 10%|███▊                                    | 172/1784 [00:33<05:15,  5.11it/s]



 10%|████                                    | 182/1784 [00:35<05:12,  5.13it/s]



 11%|████▎                                   | 192/1784 [00:36<05:07,  5.17it/s]



 11%|████▌                                   | 202/1784 [00:38<05:10,  5.10it/s]



 12%|████▊                                   | 212/1784 [00:40<05:13,  5.01it/s]



 12%|████▉                                   | 222/1784 [00:42<06:17,  4.14it/s]



 13%|█████▏                                  | 232/1784 [00:44<04:41,  5.51it/s]



 14%|█████▍                                  | 242/1784 [00:46<04:58,  5.17it/s]



 14%|█████▋                                  | 252/1784 [00:48<04:57,  5.14it/s]



 15%|█████▊                                  | 262/1784 [00:50<04:39,  5.44it/s]



 15%|██████                                  | 272/1784 [00:52<04:51,  5.18it/s]



 16%|██████▎                                 | 282/1784 [00:53<04:29,  5.57it/s]



 16%|██████▌                                 | 292/1784 [00:55<04:29,  5.53it/s]



 17%|██████▊                                 | 302/1784 [00:57<04:34,  5.41it/s]



 17%|██████▉                                 | 312/1784 [00:59<04:31,  5.41it/s]



 18%|███████▏                                | 322/1784 [01:01<04:30,  5.40it/s]



 19%|███████▍                                | 332/1784 [01:02<04:29,  5.38it/s]



 19%|███████▋                                | 342/1784 [01:04<04:53,  4.91it/s]



 20%|███████▉                                | 352/1784 [01:06<04:42,  5.06it/s]



 20%|████████                                | 362/1784 [01:08<04:41,  5.05it/s]



 21%|████████▎                               | 372/1784 [01:10<04:31,  5.19it/s]



 21%|████████▌                               | 382/1784 [01:12<04:41,  4.98it/s]



 22%|████████▊                               | 392/1784 [01:14<04:46,  4.86it/s]



 23%|█████████                               | 402/1784 [01:16<04:43,  4.87it/s]



 23%|█████████▏                              | 412/1784 [01:18<04:33,  5.02it/s]



 24%|█████████▍                              | 422/1784 [01:20<04:29,  5.06it/s]



 24%|█████████▋                              | 432/1784 [01:22<04:24,  5.12it/s]



 25%|█████████▉                              | 442/1784 [01:24<04:36,  4.85it/s]



 25%|██████████▏                             | 452/1784 [01:26<04:34,  4.86it/s]



 26%|██████████▎                             | 462/1784 [01:28<04:26,  4.96it/s]



 26%|██████████▌                             | 472/1784 [01:30<04:18,  5.07it/s]



 27%|██████████▊                             | 481/1784 [01:31<04:28,  4.85it/s]



 28%|███████████                             | 492/1784 [01:34<04:19,  4.97it/s]



 28%|███████████▎                            | 502/1784 [01:36<04:23,  4.87it/s]



 29%|███████████▍                            | 512/1784 [01:37<04:07,  5.13it/s]



 29%|███████████▋                            | 522/1784 [01:39<04:11,  5.01it/s]



 30%|███████████▉                            | 532/1784 [01:41<03:59,  5.23it/s]



 30%|████████████▏                           | 542/1784 [01:43<03:58,  5.22it/s]



 31%|████████████▍                           | 552/1784 [01:45<04:04,  5.03it/s]



 32%|████████████▌                           | 562/1784 [01:47<04:00,  5.07it/s]



 32%|████████████▊                           | 572/1784 [01:49<03:50,  5.25it/s]



 33%|█████████████                           | 582/1784 [01:51<03:50,  5.23it/s]



 33%|█████████████▎                          | 592/1784 [01:53<03:52,  5.12it/s]



 34%|█████████████▍                          | 602/1784 [01:55<03:52,  5.09it/s]



 34%|█████████████▋                          | 612/1784 [01:57<03:51,  5.07it/s]



 35%|█████████████▉                          | 622/1784 [01:58<03:53,  4.97it/s]



 35%|██████████████▏                         | 632/1784 [02:00<03:54,  4.92it/s]



 36%|██████████████▍                         | 642/1784 [02:02<03:44,  5.08it/s]



 37%|██████████████▌                         | 652/1784 [02:04<03:47,  4.97it/s]



 37%|██████████████▊                         | 662/1784 [02:06<03:45,  4.98it/s]



 38%|███████████████                         | 672/1784 [02:08<03:42,  5.00it/s]



 38%|███████████████▎                        | 682/1784 [02:10<03:38,  5.05it/s]



 39%|███████████████▌                        | 692/1784 [02:12<03:10,  5.73it/s]



 39%|███████████████▋                        | 702/1784 [02:14<03:22,  5.34it/s]



 40%|███████████████▉                        | 712/1784 [02:15<03:11,  5.61it/s]



 40%|████████████████▏                       | 722/1784 [02:17<03:12,  5.51it/s]



 41%|████████████████▍                       | 732/1784 [02:19<03:03,  5.74it/s]



 42%|████████████████▋                       | 742/1784 [02:21<03:06,  5.60it/s]



 42%|████████████████▊                       | 752/1784 [02:23<03:12,  5.36it/s]



 43%|█████████████████                       | 762/1784 [02:24<03:09,  5.40it/s]



 43%|█████████████████▎                      | 772/1784 [02:26<03:01,  5.56it/s]



 44%|█████████████████▌                      | 782/1784 [02:28<03:06,  5.37it/s]



 44%|█████████████████▊                      | 792/1784 [02:30<03:17,  5.01it/s]



 45%|█████████████████▉                      | 802/1784 [02:32<03:09,  5.19it/s]



 46%|██████████████████▏                     | 812/1784 [02:34<03:16,  4.94it/s]



 46%|██████████████████▍                     | 822/1784 [02:36<03:08,  5.10it/s]



 47%|██████████████████▋                     | 832/1784 [02:38<03:08,  5.04it/s]



 47%|██████████████████▉                     | 842/1784 [02:40<03:09,  4.96it/s]



 48%|███████████████████                     | 852/1784 [02:42<03:03,  5.07it/s]



 48%|███████████████████▎                    | 862/1784 [02:44<03:10,  4.84it/s]



 49%|███████████████████▌                    | 872/1784 [02:46<03:11,  4.77it/s]



 49%|███████████████████▊                    | 882/1784 [02:48<03:04,  4.90it/s]



 50%|████████████████████                    | 892/1784 [02:50<03:05,  4.81it/s]



 51%|████████████████████▏                   | 902/1784 [02:52<02:59,  4.91it/s]



 51%|████████████████████▍                   | 912/1784 [02:53<02:54,  4.99it/s]



 52%|████████████████████▋                   | 922/1784 [02:55<02:59,  4.81it/s]



 52%|████████████████████▉                   | 932/1784 [02:57<02:54,  4.89it/s]



 53%|█████████████████████                   | 942/1784 [02:59<02:38,  5.32it/s]



 53%|█████████████████████▎                  | 952/1784 [03:01<02:46,  5.00it/s]



 54%|█████████████████████▌                  | 962/1784 [03:03<02:39,  5.15it/s]



 54%|█████████████████████▊                  | 972/1784 [03:05<02:38,  5.12it/s]



 55%|██████████████████████                  | 982/1784 [03:07<02:37,  5.09it/s]



 56%|██████████████████████▏                 | 992/1784 [03:09<02:39,  4.96it/s]



 56%|█████████████████████▉                 | 1002/1784 [03:11<02:39,  4.91it/s]



 57%|██████████████████████                 | 1012/1784 [03:13<02:37,  4.89it/s]



 57%|██████████████████████▎                | 1022/1784 [03:15<02:31,  5.04it/s]



 58%|██████████████████████▌                | 1032/1784 [03:17<02:23,  5.24it/s]



 58%|██████████████████████▊                | 1042/1784 [03:19<02:30,  4.92it/s]



 59%|██████████████████████▉                | 1052/1784 [03:21<02:30,  4.86it/s]



 60%|███████████████████████▏               | 1062/1784 [03:23<02:26,  4.94it/s]



 60%|███████████████████████▍               | 1072/1784 [03:25<02:21,  5.02it/s]



 61%|███████████████████████▋               | 1082/1784 [03:27<02:28,  4.73it/s]



 61%|███████████████████████▊               | 1092/1784 [03:29<02:20,  4.92it/s]



 62%|████████████████████████               | 1102/1784 [03:30<02:12,  5.14it/s]



 62%|████████████████████████▎              | 1112/1784 [03:32<02:02,  5.47it/s]



 63%|████████████████████████▌              | 1122/1784 [03:34<02:08,  5.16it/s]



 63%|████████████████████████▋              | 1132/1784 [03:36<02:00,  5.40it/s]



 64%|████████████████████████▉              | 1142/1784 [03:38<02:01,  5.27it/s]



 65%|█████████████████████████▏             | 1152/1784 [03:39<01:56,  5.44it/s]



 65%|█████████████████████████▍             | 1162/1784 [03:41<01:55,  5.36it/s]



 66%|█████████████████████████▌             | 1172/1784 [03:43<01:52,  5.46it/s]



 66%|█████████████████████████▊             | 1182/1784 [03:45<01:47,  5.58it/s]



 67%|██████████████████████████             | 1192/1784 [03:47<01:48,  5.47it/s]



 67%|██████████████████████████▎            | 1202/1784 [03:48<01:48,  5.39it/s]



 68%|██████████████████████████▍            | 1212/1784 [03:50<01:50,  5.19it/s]



 68%|██████████████████████████▋            | 1222/1784 [03:52<01:52,  4.99it/s]



 69%|██████████████████████████▉            | 1232/1784 [03:54<01:50,  5.00it/s]



 70%|███████████████████████████▏           | 1242/1784 [03:56<01:48,  5.00it/s]



 70%|███████████████████████████▎           | 1252/1784 [03:58<01:48,  4.92it/s]



 71%|███████████████████████████▌           | 1262/1784 [04:00<01:46,  4.91it/s]



 71%|███████████████████████████▊           | 1272/1784 [04:02<01:43,  4.93it/s]



 72%|████████████████████████████           | 1282/1784 [04:04<01:37,  5.13it/s]



 72%|████████████████████████████▏          | 1292/1784 [04:06<01:41,  4.86it/s]



 73%|████████████████████████████▍          | 1302/1784 [04:08<01:37,  4.95it/s]



 74%|████████████████████████████▋          | 1312/1784 [04:10<01:36,  4.88it/s]



 74%|████████████████████████████▉          | 1322/1784 [04:12<01:34,  4.88it/s]



 75%|█████████████████████████████          | 1332/1784 [04:14<01:34,  4.79it/s]



 75%|█████████████████████████████▎         | 1342/1784 [04:16<01:30,  4.88it/s]



 76%|█████████████████████████████▌         | 1352/1784 [04:18<01:27,  4.92it/s]



 76%|█████████████████████████████▊         | 1362/1784 [04:20<01:26,  4.90it/s]



 77%|█████████████████████████████▉         | 1372/1784 [04:22<01:26,  4.77it/s]



 77%|██████████████████████████████▏        | 1382/1784 [04:24<01:22,  4.89it/s]



 78%|██████████████████████████████▍        | 1392/1784 [04:26<01:21,  4.81it/s]



 79%|██████████████████████████████▋        | 1402/1784 [04:28<01:19,  4.81it/s]



 79%|██████████████████████████████▊        | 1412/1784 [04:30<01:14,  4.98it/s]



 80%|███████████████████████████████        | 1422/1784 [04:32<01:14,  4.88it/s]



 80%|███████████████████████████████▎       | 1432/1784 [04:34<01:12,  4.88it/s]



 81%|███████████████████████████████▌       | 1442/1784 [04:36<01:08,  4.96it/s]



 81%|███████████████████████████████▋       | 1452/1784 [04:37<01:06,  5.00it/s]



 82%|███████████████████████████████▉       | 1462/1784 [04:39<01:03,  5.10it/s]



 83%|████████████████████████████████▏      | 1472/1784 [04:41<01:00,  5.16it/s]



 83%|████████████████████████████████▍      | 1482/1784 [04:43<01:00,  4.97it/s]



 84%|████████████████████████████████▌      | 1492/1784 [04:45<00:56,  5.17it/s]



 84%|████████████████████████████████▊      | 1502/1784 [04:47<00:51,  5.50it/s]



 85%|█████████████████████████████████      | 1512/1784 [04:49<00:49,  5.45it/s]



 85%|█████████████████████████████████▎     | 1522/1784 [04:51<00:48,  5.38it/s]



 86%|█████████████████████████████████▍     | 1532/1784 [04:52<00:48,  5.18it/s]



 86%|█████████████████████████████████▋     | 1542/1784 [04:54<00:46,  5.19it/s]



 87%|█████████████████████████████████▉     | 1552/1784 [04:56<00:44,  5.24it/s]



 88%|██████████████████████████████████▏    | 1562/1784 [04:58<00:39,  5.61it/s]



 88%|██████████████████████████████████▎    | 1572/1784 [05:00<00:36,  5.74it/s]



 89%|██████████████████████████████████▌    | 1582/1784 [05:01<00:36,  5.60it/s]



 89%|██████████████████████████████████▊    | 1592/1784 [05:03<00:35,  5.48it/s]



 90%|███████████████████████████████████    | 1602/1784 [05:05<00:34,  5.33it/s]



 90%|███████████████████████████████████▏   | 1612/1784 [05:07<00:33,  5.08it/s]



 91%|███████████████████████████████████▍   | 1622/1784 [05:09<00:30,  5.24it/s]



 91%|███████████████████████████████████▋   | 1632/1784 [05:11<00:27,  5.48it/s]



 92%|███████████████████████████████████▉   | 1642/1784 [05:13<00:26,  5.36it/s]



 93%|████████████████████████████████████   | 1652/1784 [05:14<00:24,  5.37it/s]



 93%|████████████████████████████████████▎  | 1662/1784 [05:16<00:24,  5.04it/s]



 94%|████████████████████████████████████▌  | 1672/1784 [05:18<00:20,  5.39it/s]



 94%|████████████████████████████████████▊  | 1682/1784 [05:20<00:19,  5.31it/s]



 95%|████████████████████████████████████▉  | 1692/1784 [05:22<00:16,  5.54it/s]



 95%|█████████████████████████████████████▏ | 1702/1784 [05:24<00:15,  5.42it/s]



 96%|█████████████████████████████████████▍ | 1712/1784 [05:25<00:13,  5.54it/s]



 97%|█████████████████████████████████████▋ | 1722/1784 [05:27<00:11,  5.38it/s]



 97%|█████████████████████████████████████▊ | 1732/1784 [05:29<00:10,  4.74it/s]



 98%|██████████████████████████████████████ | 1742/1784 [05:31<00:08,  5.06it/s]



 98%|██████████████████████████████████████▎| 1752/1784 [05:33<00:06,  5.26it/s]



 99%|██████████████████████████████████████▌| 1762/1784 [05:35<00:04,  5.33it/s]



 99%|██████████████████████████████████████▋| 1772/1784 [05:37<00:02,  5.40it/s]



100%|██████████████████████████████████████▉| 1782/1784 [05:38<00:00,  5.57it/s]



100%|███████████████████████████████████████| 1784/1784 [05:39<00:00,  5.25it/s]


Beginning eval...


100%|█████████████████████████████████████████| 164/164 [00:13<00:00, 11.77it/s]

Epoch: 10, Test set: Average loss: 5.0786, Average CER: 0.929737 Average WER: 1.0058








---



# Streaming

Далее ваша задание заключается в том, чтобы переписать ваш выше написанный ASR, который выбил <60 WER на стриминговую версию.

> Не пройдет схема типа написать STFT + линейный слой, выбить выше 100+ WER, а потом просто получить за это задание 4 балла. Это задание **засчитывается только если ваша архитектура выше реально рабочая** и может решать хотя бы как-то задачу ASR. Предварительное условие, что задание по стримингу засчитывается, если вы набрали <60 WER, но гвоздями не прибито, можем поторговаться, например, если вы написали рабочую архитектуру, переписали на стриминг версию, но из-за каких-то проблем с видеокартами / ресурсами и тд, не получилось обучить модель.

Оценка заданий:
1. Переписать на стриминг вариант конволюцию - **0.5 балла**
2. Переписать Attention на стриминговую версию - **1 балл**
3. Переписать Attention с chunked mask на стриминговую версию - **1 балл**
4. Переписать ASR на стриминговую версию - **4 балла**



---



### Разберемся как работает стриминг!

Для этого сделаем несколько упражнений по переписыванию операций, чтобы вам было проще переписывать вашу модель.

##### Пример STFT

Чтобы показать вам наглядный пример, на основе которого можно делать другие переписывания, то покажу пример того, как можно переписать STFT в стриминг режим.

In [42]:
import torch

# Устанавливаем seed для воспроизводимости результатов
torch.manual_seed(1231)

# Создаем случайный аудиосигнал длиной 16000 сэмплов (1 секунда при 16кГц)
sample_audio = torch.rand(16000) # Пример случайного аудио

# Параметры STFT преобразования
n_fft = 512       # Размер окна преобразования
hop_length = n_fft // 2  # Шаг между окнами (50% перекрытие)

# Создаем кастомное оконная функция (модифицированное синусоидальное окно)
window = torch.sin(
    0.5 * torch.pi * (torch.arange(n_fft) + 0.5) / hop_length
)
window = torch.sin(0.5 * torch.pi * window ** 2)  # Дополнительное преобразование окна

# 1. Оффлайн STFT обработка (обычный подход)
offline_stft_out = torch.stft(
    sample_audio,
    n_fft=512,
    hop_length=hop_length,
    win_length=n_fft,
    window=window,
    center=False,    # Не добавляем padding по краям
    onesided=True,   # Используем только положительные частоты
    normalized=False,# Без нормализации
    return_complex=True  # Возвращаем комплексные числа
)

# 2. Потоковая обработка (имитация потоковой обработки-а)

# Разбиваем аудио на фреймы с шагом hop_length
frames = sample_audio.split(hop_length)

# Здесь будем накапливать результаты обработки каждого фрейма
output_frames = []

# Буфер для хранения предыдущего фрейма (нужен для перекрытия окон)
previous_frame = None

# Имитация потоковой обработки
for frame in frames:
    # Обрабатываем только если есть предыдущий фрейм и текущий полного размера
    if previous_frame is not None and frame.shape[0] == hop_length:
        # Соединяем предыдущий и текущий фрейм (перекрытие окон)
        windowed_frame = torch.cat([previous_frame, frame]) * window

        # Вычисляем FFT только для положительных частот
        rfft_frame = torch.fft.rfft(windowed_frame)

        # Сохраняем результат обработки фрейма
        output_frames.append(rfft_frame)

    # Сохраняем текущий фрейм для следующей итерации
    previous_frame = frame

# Собираем все обработанные фреймы в один тензор
# Транспонируем, чтобы привести к тому же формату, что и в offline_stft_out
streaming_stft_out = torch.stack(output_frames).T

# Сравниваем результаты оффлайн и потоковой обработки
print("Результаты совпадают:", torch.allclose(offline_stft_out, streaming_stft_out))

Результаты совпадают: True




---



##### Перепишем конволюцию в стриминг вариант - **0.5 балла**


В этом задании вам необходимо реализовать стриминговую реализацию конволюции по аналогии с примером выше.

In [61]:
# Параметры модели
N_FEATS = 128  # Количество входных каналов

# Пример случайного входного сигнала (формат [batch, channels, time])
offline_stft_out = torch.rand(1, N_FEATS, 512)

# Оффлайн-свертка (обычная обработка всего сигнала)
conv = nn.Conv1d(N_FEATS, 1024, 3, stride=1)
conv_out_offline = conv(F.pad(offline_stft_out, (1, 1)))  # Добавляем паддинг для сохранения размера

# Разбиваем входной сигнал на отдельные кадры для потоковой обработки
frames = torch.split(offline_stft_out, 1, dim=2)  # Размер каждого кадра: [1, N_FEATS, 1]

# Сюда будем сохранять результаты потоковой обработки
output_frames = []

###################### YOUR CODE ############################
buffer = [torch.zeros(BATCH_SIZE, N_FEATS, 1) for _ in range(PADDING)]

###################### YOUR CODE ############################

# 2. Реализуйте логику потоковой обработки:
for frame in frames:
    buffer.append(frame)
    if len(buffer) < KERNEL_SIZE:
        continue
    input_chunk = torch.cat(buffer[-KERNEL_SIZE:], dim=2)
    out = conv(input_chunk)
    output_frames.append(out.squeeze(-1))

buffer.append(torch.zeros(BATCH_SIZE, N_FEATS, 1))
input_chunk = torch.cat(buffer[-KERNEL_SIZE:], dim=2)
out = conv(input_chunk)
output_frames.append(out.squeeze(-1))

# Сравниваем результаты
conv_stacked = torch.stack(output_frames, dim=-1)  # Собираем все выходные кадры
print("Результаты совпадают:",
      torch.allclose(conv_out_offline[:, :, :conv_stacked.shape[-1]], conv_stacked, atol=1e-3))

Результаты совпадают: True




---



##### Перепишем attention в стриминг вариант - **1 балл**


Накидал за вас простейшую имплементацию MHA

In [63]:
import math
import torch

from torch import nn


class ScaleDotProductAttention(nn.Module):
    """
    compute scale dot product attention

    Query : given sentence that we focused on (decoder)
    Key : every sentence to check relationship with Qeury(encoder)
    Value : every sentence same with Key (encoder)
    """

    def __init__(self):
        super(ScaleDotProductAttention, self).__init__()
        self.softmax = nn.Softmax(dim=-1)

    def forward(self, q, k, v, mask=None, e=1e-12):
        # input is 4 dimension tensor
        # [batch_size, head, length, d_tensor]
        batch_size, head, length, d_tensor = k.size()

        # 1. dot product Query with Key^T to compute similarity
        k_t = k.transpose(2, 3)  # transpose
        score = (q @ k_t) / math.sqrt(d_tensor)  # scaled dot product

        # 2. apply masking (opt)
        if mask is not None:
            score = score.masked_fill(mask == 0, -10000)

        # 3. pass them softmax to make [0, 1] range
        score = self.softmax(score)

        # 4. multiply with Value
        v = score @ v

        return v, score


class MultiHeadAttention(nn.Module):

    def __init__(self, d_model=512, n_head=8):
        super(MultiHeadAttention, self).__init__()
        self.n_head = n_head
        self.attention = ScaleDotProductAttention()
        self.w_q = nn.Linear(d_model, d_model)
        self.w_k = nn.Linear(d_model, d_model)
        self.w_v = nn.Linear(d_model, d_model)
        self.w_concat = nn.Linear(d_model, d_model)

    def forward(self, q, k, v, mask=None):
        # 1. dot product with weight matrices
        q, k, v = self.w_q(q), self.w_k(k), self.w_v(v)

        # 2. split tensor by number of heads
        q, k, v = self.split(q), self.split(k), self.split(v)

        # 3. do scale dot product to compute similarity
        out, attention = self.attention(q, k, v, mask=mask)

        # 4. concat and pass to linear layer
        out = self.concat(out)
        out = self.w_concat(out)

        return out

    def split(self, tensor):
        """
        split tensor by number of head

        :param tensor: [batch_size, length, d_model]
        :return: [batch_size, head, length, d_tensor]
        """
        batch_size, length, d_model = tensor.size()

        d_tensor = d_model // self.n_head
        tensor = tensor.view(batch_size, length, self.n_head, d_tensor).transpose(1, 2)
        # it is similar with group convolution (split by number of heads)

        return tensor

    def concat(self, tensor):
        """
        inverse function of self.split(tensor : torch.Tensor)

        :param tensor: [batch_size, head, length, d_tensor]
        :return: [batch_size, length, d_model]
        """
        batch_size, head, length, d_tensor = tensor.size()
        d_model = head * d_tensor

        tensor = tensor.transpose(1, 2).contiguous().view(batch_size, length, d_model)
        return tensor

В этом задании вам необходимо реализовать стриминговую имплементацию для Multi Head Attention с tril маской.

In [65]:
import torch
torch.manual_seed(1111)

# Параметры модели
d_model = 512    # Размерность модели
n_heads = 8      # Количество голов внимания
batch_size = 1    # Размер батча
seq_len = 100     # Длина последовательности
n_blocks = 3      # Количество блоков внимания

# Создаем случайный входной тензор [batch, seq_len, d_model]
input_full = torch.randn(batch_size, seq_len, d_model)

# Инициализируем несколько блоков внимания
mha_list = [MultiHeadAttention(d_model, n_heads) for _ in range(n_blocks)]

def run_mha(x, mask=None):
    """Применяет все блоки внимания последовательно"""
    for block in mha_list:
        x = block(x, x, x, mask)
    return x

# Оффлайн обработка (весь входной тензор сразу)
mask = torch.tril(torch.ones(seq_len, seq_len))  # Нижнетреугольная маска
offline_mask = mask.view(1, 1, seq_len, seq_len).repeat(batch_size, n_heads, 1, 1)
offline_out = run_mha(input_full, offline_mask)

# Потоковая обработка - разбиваем на отдельные токены
input_chunks = torch.split(input_full, 1, dim=1)  # Разделяем по временной оси

###################### YOUR CODE ############################
cached_k = [ [] for _ in range(n_blocks) ]
cached_v = [ [] for _ in range(n_blocks) ]

###################### YOUR CODE ############################

streaming_out = []  # Здесь будем сохранять результаты

for t, chunk in enumerate(input_chunks):
    x = chunk

    for i, block in enumerate(mha_list):
        q = block.w_q(x) 
        k = block.w_k(x)
        v = block.w_v(x)
        q = block.split(q)
        k = block.split(k)
        v = block.split(v)

        if t == 0:
            cached_k[i] = [k]
            cached_v[i] = [v]
        else:
            cached_k[i].append(k)
            cached_v[i].append(v)

        full_k = torch.cat(cached_k[i], dim=2)
        full_v = torch.cat(cached_v[i], dim=2)
        causal_mask = torch.ones((1, 1, 1, full_k.size(2)), dtype=torch.bool)
        out, _ = block.attention(q, full_k, full_v, mask=causal_mask)
        x = block.concat(out)
        x = block.w_concat(x)

    streaming_out.append(x.squeeze(1)) 

# Собираем все предсказания в один тензор
streaming_out = torch.stack(streaming_out, dim=1)

# Проверяем совпадение с оффлайн версией
print("Результаты совпадают:", torch.allclose(offline_out, streaming_out, atol=1e-3))

Результаты совпадают: True




---



##### Перепишем attention в стриминг вариант с chunked mask-ой - **1 балл**

Теперь, когда вы разобрались, как сделать стриминговый атеншен с tril маской, то теперь реализуем стриминговый атеншен с блок-диагональной маской.

In [75]:
# Конфигурация модели
d_model = 512       # Размерность эмбеддингов
n_heads = 8         # Количество голов внимания
batch_size = 1       # Размер батча
seq_len = 100        # Длина последовательности
n_blocks = 5         # Количество слоев внимания

# Инициализация блоков внимания
mha_list = [MultiHeadAttention(d_model, n_heads) for _ in range(n_blocks)]

# Создаем случайный входной тензор [batch, seq_len, d_model]
input_full = torch.randn(batch_size, seq_len, d_model)

def run_mha(x, mask=None):
    """Применяет все блоки внимания последовательно"""
    for block in mha_list:
        x = block(x, x, x, mask)
    return x

# Настройки блочной диагональной маски
n_diag_blocks = 4            # Количество блоков в маске
block_size = seq_len // n_diag_blocks  # Размер каждого блока

# Оффлайн обработка с блочной диагональной маской
# Создаем маску из n_diag_blocks единичных матриц block_size x block_size
mask = torch.block_diag(
    *[torch.ones(block_size, block_size) for _ in range(n_diag_blocks)],
)
# Преобразуем маску в формат [batch, heads, seq_len, seq_len]
offline_mask = mask.view(1, 1, seq_len, seq_len).repeat(batch_size, n_heads, 1, 1)
# Применяем механизм внимания ко всей последовательности
offline_out = run_mha(input_full, mask)

# Потоковая обработка - разбиваем на отдельные токены
input_chunks = torch.split(input_full, 1, dim=1)  # Разделяем по временной оси

###################### YOUR CODE ############################
token_buffer = []
###################### YOUR CODE ############################

streaming_out = []  # Здесь сохраняем результаты обработки блоков

for t, chunk in enumerate(input_chunks):
    token_buffer.append(chunk) 
    current_block = torch.cat(token_buffer, dim=1)
    curr_len = current_block.shape[1]
    mask = torch.tril(torch.ones(curr_len, curr_len)).unsqueeze(0).unsqueeze(0)
    mask = mask.repeat(batch_size, n_heads, 1, 1)
    out = run_mha(current_block, mask)
    streaming_out.append(out[:, -1:, :])

    if curr_len == block_size:
        token_buffer = []
        
# Собираем все обработанные блоки в один тензор
streaming_out_stacked = torch.cat(streaming_out, dim=1)

# Проверяем совпадение с оффлайн версией
print("Результаты совпадают:",
      torch.allclose(offline_out[:, :streaming_out_stacked.shape[1]],
                   streaming_out_stacked, atol=1e-3))

Результаты совпадают: False




---



### Приступим к написанию стриминговой модели

In [95]:
class StreamingASRModel(nn.Module):
    def __init__(self, offline_model, window_size=1024, hop_length=256, preprocess_fn=None):
        super().__init__()
        self.offline_model = offline_model
        self.window_size = window_size
        self.hop_length = hop_length
        self.preprocess_fn = preprocess_fn

        self.sample_buffer = torch.zeros(0)

    def forward(self, frame: torch.Tensor):
        """
        Args:
            frame: Tensor формы [hop_length] — очередной фрейм аудио

        Returns:
            output (torch.Tensor or None): результат модели, если окно собрано, иначе None
        """
        self.sample_buffer = torch.cat([self.sample_buffer, frame], dim=0)

        if self.sample_buffer.shape[0] < self.window_size:
            return None

        audio_window = self.sample_buffer[:self.window_size] 
        features = self.preprocess_fn(audio_window)
        input_tensor = features.unsqueeze(0) 

        with torch.no_grad():
            output = self.offline_model(input_tensor) 
        self.sample_buffer = self.sample_buffer[self.hop_length:]

        return output

In [96]:
sample_audio = torch.randn(int(16000 * 5.5))  # Example random audio

In [97]:
model = model.cpu().eval()

# Offline example
preprocessing_out = preprocess_audio_test(sample_audio).unsqueeze(0)

offline_output, _ = model(preprocessing_out, [preprocessing_out.shape[2]])

Схема того, как проверяется стриминговая модель:
1. Берем предсказания модели в офлайн режиме
2. Берем предсказания модели в стриминг режиме. Нюанс! Вполне возможно, что вашей модели может быть необходим контекст из будущего, поэтому для проверки достаточно сравнения того куска тензора, который получил необходимый контекст.
3. Сравниваем, предсказания должны совпадать по `atol=1e-3`

In [None]:
# Streaming example
# Впишите необходимую вам длину шага
HOP_LENGTH = 160

streaming_model = StreamingASRModel(model).eval()

frames = sample_audio.split(HOP_LENGTH)

# Every frame going to output
output_frames = []

# Streaming imitation
for frame in frames:
    output = streaming_model(frame)

    if output is not None:
        output_frames.append(output)

# Let's compare
streaming_out = torch.stack(output_frames).permute(1, 0, 2)
offline_output = offline_output[:, : streaming_out.shape[1], :]
print(
    "Результаты совпадают:" ,torch.allclose(
        offline_output,
        streaming_out,
        atol=1e-3,
    )
)



---



# Домашнее задание № 13

Выполните все задания в этом ноутбуке.

+ Мягкий дедлайн: `18.05.25 23:59`
+ Жесткий дедлайн: `25.05.25 23:59` (половина баллов)


После жесткого дедлайна задание не принимается.