# Предварительная настройка среды разработки

## Глобальные настройки

Определеим некоторые настройки работы для упрощения управления процессом обучения:

In [8]:
DATA_PATH = "./DATA/" # Относительный путь к папке для хранения данных

## Google Collab

### Подключение сервисов Google

In [None]:
from google.colab import drive
drive.mount('/content/drive')

print("Setup Complete")

### Установка необходимых библиотек

## Локальная среда

### Проверка доступности GPU

Чтобы получить GPU, нажмите _Runtime_ -> _Change runtime type_, затем измените _Hardware accelerator_ с _None_ на _GPU_.

Мы можем проверить, что нам назначен GPU, и просмотреть его характеристики:

In [1]:
!nvidia-smi

Thu Jan 12 12:50:39 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 527.92.01    Driver Version: 528.02       CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  NVIDIA GeForce ...  On   | 00000000:01:00.0 Off |                  N/A |
| N/A   35C    P8     6W /  75W |      9MiB /  4096MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

### Установка необходимых библиотек

In [2]:
!conda install -y -c conda-forge transformers
!conda install -y -c conda-forge datasets
!conda install -y -c conda-forge librosa
!conda install -c conda-forge ffmpeg
!conda install -c conda-forge huggingface_hub

!pip install --no-input evaluate
!pip install --no-input jiwer
!pip install --no-input gradio

print("Library installation complete!")

Retrieving notices: ...working... done
Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.

Library installation complete!


### Загрузка необходимых модулей

In [44]:
# Вскпомогательные бибилиотеки
import os
import multiprocessing

from dataclasses import dataclass
from typing import Any, Dict, List, Union

# HuggingFace
from huggingface_hub import notebook_login
from datasets import load_dataset, DatasetDict
from transformers import WhisperFeatureExtractor
from transformers import WhisperTokenizer
from transformers import WhisperProcessor
from datasets import Audio
from transformers import WhisperForConditionalGeneration


# Pytorch
import torch

# Evaluate
import evaluate

print("Required libraries/modules initialization complete!")

Required libraries/modules initialization complete!


### Настройка окружения

In [34]:
# Определим количество ядер CPU, это влияет на количество рабочих процессов которые мы можем запустить одновременно
system_num_workers = multiprocessing.cpu_count()
print("The number of workers processes is set at", system_num_workers)

# # Аутентификация ноутбука в HuggingFace HUB
# notebook_login()

print("Environment setup completed!")

The number of workers processes is set at 16
Environment setup completed!


# Тонкая настройка Whisper для многоязыкового ASR с помощью библиотеки 🤗 Transformers

В этом блокноте мы представляем пошаговое руководство по тонкой настройке Whisper для любого многоязыкового набора данных ASR с помощью библиотеки Hugging Face 🤗 Transformers. Это более "практическая" версия сопутствующего [сообщения в блоге](https://huggingface.co/blog/fine-tune-whisper). Для более подробного объяснения Whisper, набора данных Common Voice и теории, лежащей в основе тонкой настройки, читателю рекомендуется обратиться к статье в блоге.

## Введение

Whisper - это предварительно обученная модель для автоматического распознавания речи (ASR) опубликованная в [сентябре 2022](https://openai.com/blog/whisper/) авторами Алеком Рэдфордом и другими из OpenAI. В отличие от многих своих предшественников, таких как. 
[Wav2Vec 2.0](https://arxiv.org/abs/2006.11477), которые предварительно обученны на неразмеченных аудиоданных, Whisper предварительно обучен на огромном количестве **размеченных** транскрибированных аудио данных, 680 000 часов, если быть точным. Это на порядок больше данных, чем использованные для обучения Wav2Vec 2.0 (60 000 часов) неразмеченных аудиоданных. Более того, 117 000 часов из этих данных использованных для предварительного обучения - это многоязыковые данные ASR. Это позволяет получить контрольные точки которые могут быть применены к более чем 96 языкам, многие из которых считаются _низкоресурсными_.

При масштабировании на 680 000 часов размеченных данных предварительного обучения, модели Whisper демонстрируют высокую способность к обобщению для многих наборов данных и областей (доменов). Предварительно обученные контрольные точки достигают результатов, конкурентоспособных с современными 
ASR системами, с коэффициентом ошибок в словах (WER) около 3% на подмножестве чистых тестов LibriSpeech ASR и новым передовым результатом на TED-LIUM с 4,7% (смотрите таблицу 8 из [Whisper paper](https://cdn.openai.com/papers/whisper.pdf)). 

Обширные знания о многоязычном ASR, полученные Whisper во время предварительного обучения могут быть использованы для других языков с низким уровнем ресурсов; посредством тонкой настройки предварительно обученные контрольные точки могут быть адаптированы для конкретных наборов данных и языков для дальнейшего улучшения результатов. Мы покажем, как можно точно настроить Whisper для языков с ограниченными ресурсами в этом блокноте.

<figure>
<img src="https://raw.githubusercontent.com/sanchit-gandhi/notebooks/main/whisper_architecture.svg" alt="Trulli" style="width:100%">
<figcaption align = "center"><b>Рисунок 1:</b> модель Whisper. Архитектура соответствует стандартной модели кодера-декодера на основе трансформатора. Log-Mel спектрограмма подается на вход кодера. Последние скрытые состояния поступают в декодер через механизмы перекрестного внимания. Декодер авторегрессионно предсказывает текстовые токены, совместно обусловленные скрытыми состояниями энкодера и ранее предсказанными токенами. Источник рисунка: 
<a href="https://openai.com/blog/whisper/">блог OpenAI Whisper</a>.</figcaption>
</figure>

Контрольные точки Whisper представлены в пяти конфигурациях с различными размерами моделей. Самые маленькие четыре модели обучаются либо только на английском, либо на многоязычных данных. Самая большая контрольная точка - только многоязычная. 
Все девять предварительно обученных контрольных точек доступны на сайте [Hugging Face Hub](https://huggingface.co/models?search=openai/whisper). Контрольные точки сведены в следующую таблицу со ссылками на модели в хабе:

| Размер   | Количество слоёв | Ширина | Количество голов | Параметры | Только англоязычная модель                                         | Многоязычная модель                                      |
|--------|--------|-------|-------|------------|------------------------------------------------------|---------------------------------------------------|
| tiny   | 4      | 384   | 6     | 39 M       | [✓](https://huggingface.co/openai/whisper-tiny.en)   | [✓](https://huggingface.co/openai/whisper-tiny.)  |
| base   | 6      | 512   | 8     | 74 M       | [✓](https://huggingface.co/openai/whisper-base.en)   | [✓](https://huggingface.co/openai/whisper-base)   |
| small  | 12     | 768   | 12    | 244 M      | [✓](https://huggingface.co/openai/whisper-small.en)  | [✓](https://huggingface.co/openai/whisper-small)  |
| medium | 24     | 1024  | 16    | 769 M      | [✓](https://huggingface.co/openai/whisper-medium.en) | [✓](https://huggingface.co/openai/whisper-medium) |
| large  | 32     | 1280  | 20    | 1550 M     | x                                                    | [✓](https://huggingface.co/openai/whisper-large)  |

В демонстрационных целях мы доработаем контрольную точку многоязычной версии [``малой модели``](https://huggingface.co/openai/whisper-small) с 244M параметрами (~= 1GB). Что касается наших данных, мы обучим и оценим нашу систему на языке с низким уровнем ресурсов, взятом из набора данных [Common Voice](https://huggingface.co/datasets/mozilla-foundation/common_voice_11_0). Мы покажем, что всего за 8 часов тонкой настройки данных мы можем добиться высоких результатов на этом языке.

------------------------------------------------------------------------

${}^1$ - Название Whisper происходит от аббревиатуры "WSPSR", которая расшифровывается как "Web-scale Supervised Pre-training for Speech Recognition".

## Загрузка набора данных

Используя 🤗 Datasets, загрузка и подготовка данных чрезвычайно проста. 

Мы можем загрузить и подготовить сплиты Common Voice всего одной строкой кода. 

Во-первых, убедитесь, что вы приняли условия использования на Hugging Face Hub: [mozilla-foundation/common_voice_11_0](https://huggingface.co/datasets/mozilla-foundation/common_voice_11_0). После принятия условий вы получите полный доступ к набору данных и сможете загружать данные локально.

Объединим `train` и `validation` части набора данных, чтобы получить как можно больше данных для обучения. Будем использовать
данных `test` в качестве нашего тестового набора.

> ВАЖНО!
> Для удобства хранения данных датасета, я ранее определил путь к папке в переменной `DATA_PATH`. Это позволит хранить кеш данных в известном заранее месте и в дальшнейшем удалить ненужные данные. Это позволит быстро освободить место на HDD.

In [13]:
# Создадим папку для хранения данных локально
if not os.path.isdir(DATA_PATH):
    os.mkdir(DATA_PATH)
    print("Directory '% s' created" % DATA_PATH)
else:
    print("Directory '% s' already exist!" % DATA_PATH)

Directory './DATA/' already exist!


In [10]:
# Создадим словарь для хранения датасета
common_voice = DatasetDict()

common_voice["train"] = load_dataset("mozilla-foundation/common_voice_2_0", "ru", split="train+validation", cache_dir=DATA_PATH, use_auth_token=True)
common_voice["test"] = load_dataset("mozilla-foundation/common_voice_2_0", "ru", split="test", cache_dir=DATA_PATH, use_auth_token=True)

print(common_voice)
print("Data download successfully completed!")

Downloading and preparing dataset common_voice_2_0/ru to /home/artyom/Whisper_Train/./DATA/mozilla-foundation___common_voice_2_0/ru/2.0.0/c093ea99a0b8cadf95dd03e2ba81d28119744728ae97cc6196fd0c17b9b7f079...


Downloading data:   0%|          | 0.00/588M [00:00<?, ?B/s]

Generating train split: 0 examples [00:00, ? examples/s]

Generating test split: 0 examples [00:00, ? examples/s]

Generating validation split: 0 examples [00:00, ? examples/s]

Generating other split: 0 examples [00:00, ? examples/s]

Generating invalidated split: 0 examples [00:00, ? examples/s]

Dataset common_voice_2_0 downloaded and prepared to /home/artyom/Whisper_Train/./DATA/mozilla-foundation___common_voice_2_0/ru/2.0.0/c093ea99a0b8cadf95dd03e2ba81d28119744728ae97cc6196fd0c17b9b7f079. Subsequent calls will reuse this data.


Found cached dataset common_voice_2_0 (/home/artyom/Whisper_Train/./DATA/mozilla-foundation___common_voice_2_0/ru/2.0.0/c093ea99a0b8cadf95dd03e2ba81d28119744728ae97cc6196fd0c17b9b7f079)


DatasetDict({
    train: Dataset({
        features: ['client_id', 'path', 'audio', 'sentence', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment'],
        num_rows: 3898
    })
    test: Dataset({
        features: ['client_id', 'path', 'audio', 'sentence', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment'],
        num_rows: 1561
    })
})
Data download successfully completed!


Большинство наборов данных ASR предоставляют только входные образцы аудио (`audio`) и соответствующий транскрибированный текст (`sentence`).  Common Voice содержит дополнительную метаданные, такие как `accent` и `locale`, которые мы можем игнорировать для ASR.

Оставив блокнот максимально общим, мы рассматриваем только входной звук и транскрибированный текст для тонкой настройки, отбрасывая дополнительную информацию метаданных:

In [34]:
common_voice = common_voice.remove_columns(["accent", "age", "client_id", "down_votes", "gender", "locale", "path", "segment", "up_votes"])

print(common_voice)

DatasetDict({
    train: Dataset({
        features: ['audio', 'sentence'],
        num_rows: 3898
    })
    test: Dataset({
        features: ['audio', 'sentence'],
        num_rows: 1561
    })
})


## Подготовка экстрактора признаков, токенизатора и данных

Конвейер ASR можно разделить на три этапа: 
1) экстрактор признаков, который предварительно обрабатывает необработанные аудиоданные
2) Модель, которая выполняет сопоставление последовательности с последовательностью 
3) Токенизатор, который постобрабатывает выводы модели в текстовый формат.

Модель Whisper из библиотеки 🤗 Transformers имеет ассоциированный экстрактор признаков и токенизатор, называемые [WhisperFeatureExtractor](https://huggingface.co/docs/transformers/main/model_doc/whisper#transformers.WhisperFeatureExtractor)
и [WhisperTokenizer](https://huggingface.co/docs/transformers/main/model_doc/whisper#transformers.WhisperTokenizer) 
соответственно.

Рассмотрим детальнее настройки экстрактора и токенизатора по очереди!

### Загрузка WhisperFeatureExtractor

Экстрактор признаков Whisper выполняет две операции:
1. Разбивка / усечение аудиоданных до 30 секунд: все аудиоданные короче 30 секунд разбиваются на молчание (нули), а те, что длиннее 30 секунд, усекаются до 30 секунд.
2. Преобразует входные аудио в _log-Mel спектрограммы_ входных признаков, визуальное представление аудио и форму входных данных, ожидаемых моделью Whisper.

<figure>
<img src="https://raw.githubusercontent.com/sanchit-gandhi/notebooks/main/spectrogram.jpg" alt="Trulli" style="width:100%">
<figcaption align = "center"><b>Рисунок 2:</b> Преобразование дискретизированного аудио массива в log-Mel спектрограмму.
Слева: дискретизированный одномерный аудиосигнал. Справа: соответствующая log-Mel спектрограмма. Источник рисунка:
<a href="https://ai.googleblog.com/2019/04/specaugment-new-data-augmentation.html">Google SpecAugment Blog</a>.
</figcaption>

Мы загрузим экстрактор признаков из предварительно обученной контрольной точки со параметрами по умолчанию:

In [17]:
feature_extractor = WhisperFeatureExtractor.from_pretrained("openai/whisper-small")

print("The feature extractor is loaded successfully.")

The feature extractor is loaded successfully.


### Загрузка WhisperTokenizer

Модель Whisper выдает последовательность идентификаторов _токенов_. Токенизатор сопоставляет каждый из этих идентификаторов токенов с соответствующей текстовой строкой. Для русского языка мы можем загрузить предварительно обученный токенизатор и использовать его для тонкой настройки 
с указанием целевого языка и задачи. Эти аргументы сообщают токенизатору о том, что следует задавать префикс токена языка и задачи в начале последовательности меток:

In [24]:
tokenizer = WhisperTokenizer.from_pretrained("openai/whisper-small", language="Russian", task="transcribe")

print("Tokenizer loaded successfully.")

Tokenizer loaded successfully.


### Комбинирование для создания WhisperProcessor

Чтобы упростить использование экстрактора признаков и токенизатора, мы можем _обернуть_ их в один класс `WhisperProcessor`. Этот объект наследуется от `WhisperFeatureExtractor` и `WhisperProcessor`, и может использоваться для обработки входных аудиоданных и 
получения предсказаний модели по мере необходимости. При этом во время обучения нам нужно отслеживать только два объекта: `processor` и `model`:

In [25]:
processor = WhisperProcessor.from_pretrained("openai/whisper-small", language="Russian", task="transcribe")

print("Processor loaded successfully.")

Processor loaded successfully.


### Подготовка данных

Давайте распечатаем первый образец набора данных Common Voice, чтобы посмотреть в какой форме находятся данные:

In [26]:
print(common_voice["train"][0])

{'client_id': 'f247238b250c437f020fb0bdd95984cc8d3686ce4b07d952a6d541dc3e25a7a512797cc0432ebd4a917ca83890bd9e7aa4aa732154092a09f4cef429df32a87c', 'path': 'DATA/downloads/extracted/acaf2c2e872a1554fdde5f2e9f14ba8c2f8793da2206b75dafc9b15a35bc343a/clips/001b11fa8d4b0277e41ab82671346ec1b8851e6ed7162c12952a45c9ffc3d8a61b333e92188ebfc6d61b128e1967fb0074b4d22208dc32f41a4f4a23e6ec1f00.mp3', 'audio': {'path': 'DATA/downloads/extracted/acaf2c2e872a1554fdde5f2e9f14ba8c2f8793da2206b75dafc9b15a35bc343a/clips/001b11fa8d4b0277e41ab82671346ec1b8851e6ed7162c12952a45c9ffc3d8a61b333e92188ebfc6d61b128e1967fb0074b4d22208dc32f41a4f4a23e6ec1f00.mp3', 'array': array([ 0.0000000e+00,  4.5755869e-13,  8.2663303e-13, ...,
       -1.3604904e-07, -2.0340853e-05, -7.7015411e-06], dtype=float32), 'sampling_rate': 48000}, 'sentence': 'Да ты уже просто с катушек съехал!', 'up_votes': 2, 'down_votes': 0, 'age': 'fourties', 'gender': 'male', 'accent': '', 'locale': '', 'segment': ''}


Поскольку наш входной звук сэмплирован с частотой 48 кГц (`'...sampling_rate': 48000...`), нам нужно _уменьшить_ его до частоту дискретизации до 16 кГц перед тем, как передать его в экстрактор признаков Whisper, 16 кГц - это частота дискретизации, ожидаемая моделью Whisper. Мы установим для аудио входов правильную частоту дискретизации с помощью метода [`cast_column`](https://huggingface.co/docs/datasets/package_reference/main_classes.html?highlight=cast_column#datasets.DatasetDict.cast_column). Эта операция не изменяет звук "на месте", а скорее дает сигнализирует `datasets` передискретизировать аудиосэмплы _на лету_ при при первой загрузке данных:

In [29]:
common_voice = common_voice.cast_column("audio", Audio(sampling_rate=16000))

print("Audio sample rate set successfully.")

Audio sample rate set successfully.


Повторная загрузка первого аудиообразца из набора данных Common Voice приведет к его передискретизации до нужной частоты дискретизации:

In [30]:
print(common_voice["train"][0])

{'client_id': 'f247238b250c437f020fb0bdd95984cc8d3686ce4b07d952a6d541dc3e25a7a512797cc0432ebd4a917ca83890bd9e7aa4aa732154092a09f4cef429df32a87c', 'path': 'DATA/downloads/extracted/acaf2c2e872a1554fdde5f2e9f14ba8c2f8793da2206b75dafc9b15a35bc343a/clips/001b11fa8d4b0277e41ab82671346ec1b8851e6ed7162c12952a45c9ffc3d8a61b333e92188ebfc6d61b128e1967fb0074b4d22208dc32f41a4f4a23e6ec1f00.mp3', 'audio': {'path': 'DATA/downloads/extracted/acaf2c2e872a1554fdde5f2e9f14ba8c2f8793da2206b75dafc9b15a35bc343a/clips/001b11fa8d4b0277e41ab82671346ec1b8851e6ed7162c12952a45c9ffc3d8a61b333e92188ebfc6d61b128e1967fb0074b4d22208dc32f41a4f4a23e6ec1f00.mp3', 'array': array([ 3.0140032e-13,  7.2592689e-15, -1.1101574e-12, ...,
       -1.6450653e-05,  2.4153996e-07, -1.7190577e-06], dtype=float32), 'sampling_rate': 16000}, 'sentence': 'Да ты уже просто с катушек съехал!', 'up_votes': 2, 'down_votes': 0, 'age': 'fourties', 'gender': 'male', 'accent': '', 'locale': '', 'segment': ''}


Теперь мы можем написать функцию для подготовки наших данных к работе с моделью:
1. Мы загружаем и передискретизируем аудиоданные, вызывая `batch["audio"]`. Как объяснялось выше, 🤗 Datasets выполняет все необходимые операции по передискретизации на лету.
2. Мы используем экстрактор признаков для вычисления входных признаков спектрограммы log-Mel из нашего одномерного аудио массива.
3. Мы кодируем транскрипции в идентификаторы меток с помощью токенизатора.

In [31]:
def prepare_dataset(batch):
    # Загрузим и передискретизировать аудиоданные с 48 до 16 кГц
    audio = batch["audio"]

    # вычислим log-Mel входные признаки из входного аудио массива  
    batch["input_features"] = feature_extractor(audio["array"], sampling_rate=audio["sampling_rate"]).input_features[0]

    # закодируем целевой текст в идентификаторы меток
    batch["labels"] = tokenizer(batch["sentence"]).input_ids
    return batch

Мы можем применить функцию подготовки данных ко всем нашим учебным примерам, используя метод `.map` в наборе данных. Аргумент `num_proc` указывает, сколько ядер процессора использовать. Если задать `num_proc` > 1, то будет включена многопроцессорная обработка. Если метод `.map` зависает при многопроцессорной обработке, установите `num_proc=1` и обрабатывайте набор данных последовательно.

> ВАЖНО!
> Для удобства работы я использую автоматическое определения количества рабочих прощессов через переменную `system_num_workers`. Это позволяет существенно повысить производительность и сэкономить время.

In [37]:
print("The current number of CPU cores is {}.".format(system_num_workers))
common_voice = common_voice.map(prepare_dataset, remove_columns=common_voice.column_names["train"], num_proc=system_num_workers)

The current number of CPU cores is 16.
                   

#2:   0%|          | 0/244 [00:00<?, ?ex/s]

   

#0:   0%|          | 0/244 [00:00<?, ?ex/s]

#6:   0%|          | 0/244 [00:00<?, ?ex/s]

 

#4:   0%|          | 0/244 [00:00<?, ?ex/s]

#7:   0%|          | 0/244 [00:00<?, ?ex/s]

   

#5:   0%|          | 0/244 [00:00<?, ?ex/s]

  

#1:   0%|          | 0/244 [00:00<?, ?ex/s]

#9:   0%|          | 0/244 [00:00<?, ?ex/s]

#10:   0%|          | 0/243 [00:00<?, ?ex/s]

#13:   0%|          | 0/243 [00:00<?, ?ex/s]

#12:   0%|          | 0/243 [00:00<?, ?ex/s]

#11:   0%|          | 0/243 [00:00<?, ?ex/s]

 

#14:   0%|          | 0/243 [00:00<?, ?ex/s]

  

#3:   0%|          | 0/244 [00:00<?, ?ex/s]

#8:   0%|          | 0/244 [00:00<?, ?ex/s]

 

#15:   0%|          | 0/243 [00:00<?, ?ex/s]

                  

#1:   0%|          | 0/98 [00:00<?, ?ex/s]

              

#4:   0%|          | 0/98 [00:00<?, ?ex/s]

#11:   0%|          | 0/97 [00:00<?, ?ex/s]

#2:   0%|          | 0/98 [00:00<?, ?ex/s]

#5:   0%|          | 0/98 [00:00<?, ?ex/s]

#0:   0%|          | 0/98 [00:00<?, ?ex/s]

#3:   0%|          | 0/98 [00:00<?, ?ex/s]

#6:   0%|          | 0/98 [00:00<?, ?ex/s]

#10:   0%|          | 0/97 [00:00<?, ?ex/s]

#8:   0%|          | 0/98 [00:00<?, ?ex/s]

#7:   0%|          | 0/98 [00:00<?, ?ex/s]

#9:   0%|          | 0/97 [00:00<?, ?ex/s]

#12:   0%|          | 0/97 [00:00<?, ?ex/s]

#15:   0%|          | 0/97 [00:00<?, ?ex/s]

#14:   0%|          | 0/97 [00:00<?, ?ex/s]

#13:   0%|          | 0/97 [00:00<?, ?ex/s]

## Обучение и оценка

Теперь, когда мы подготовили наши данные, мы готовы погрузиться в конвейер обучения. [🤗Тренер (Trainer)](https://huggingface.co/transformers/master/main_classes/trainer.html?highlight=trainer) сделает за нас большую часть тяжелой работы. Все, что нам нужно сделать, это:
- Определить коллатор данных (data collator): коллатор данных берет наши предварительно обработанные данные и подготавливает тензоры PyTorch, готовые для модели.
- Выбрать метрику для оценки: во время оценки мы хотим оценить модель с помощью метрики [word error rate (WER)](https://huggingface.co/metrics/wer). Нам нужно определить функцию `compute_metrics`, которая будет обрабатывать эти вычисления.
- Загрузить предварительно обученную контрольную точку: нам нужно загрузить предварительно обученную контрольную точку и правильно настроить ее для обучения.
- Определить конфигурацию процесса обучения: она будет использоваться 🤗 тренером для определения расписания тренировок.

После того как мы произведем тонкую настройку модели, мы оценим ее на тестовых данных, чтобы убедиться, что мы правильно обучили ее транскрибировать речь.

### Определение коллатора данных

Коллатор данных для модели последовательной речи уникален в том смысле, что он обрабатывает входные признаки `input_features` и метки `labels` независимо друг от друга: входные признаки `input_features` должны быть обработанны экстрактором признаков, а метки `labels` - токенизатором. 

Входные признаки `input_features` уже разбиты на аудиофрагменты длительностью 30 секунд и преобразованы в соответствующие им спектрограммы log-Mel фиксированной размерности с помощью экстрактора признаков, поэтому все, что нам нужно сделать, это преобразовать входные признаки `input_features` в тензоры PyTorch. Мы делаем это с помощью метода `.pad` экстрактора признаков с хаданием параметра `return_tensors=pt`.

С другой стороны, `метки (labels)` не имеют вставок (un-padded). Сначала мы выравниваем последовательности до максимальной длины в батче, используя метод `.pad` токенизатора. Затем токены-вставки заменяются на значение `-100`, чтобы эти токены **не** учитывались при вычислении потерь. Затем мы вырезаем токен BOS из начала последовательности меток, так как мы добавим его позже во время обучения. 

Мы можем использовать препроцессор `WhisperProcessor`, который мы определили ранее, для выполнения извлечения признаков, так и для работы с токенами:

In [40]:
@dataclass
class DataCollatorSpeechSeq2SeqWithPadding:
    processor: Any

    def __call__(self, features: List[Dict[str, Union[List[int], torch.Tensor]]]) -> Dict[str, torch.Tensor]:
        # split inputs and labels since they have to be of different lengths and need different padding methods
        # first treat the audio inputs by simply returning torch tensors
        input_features = [{"input_features": feature["input_features"]} for feature in features]
        batch = self.processor.feature_extractor.pad(input_features, return_tensors="pt")

        # get the tokenized label sequences
        label_features = [{"input_ids": feature["labels"]} for feature in features]
        # pad the labels to max length
        labels_batch = self.processor.tokenizer.pad(label_features, return_tensors="pt")

        # replace padding with -100 to ignore loss correctly
        labels = labels_batch["input_ids"].masked_fill(labels_batch.attention_mask.ne(1), -100)

        # if bos token is appended in previous tokenization step,
        # cut bos token here as it's append later anyways
        if (labels[:, 0] == self.processor.tokenizer.bos_token_id).all().cpu().item():
            labels = labels[:, 1:]

        batch["labels"] = labels

        return batch

Давайте инициализируем коллатор данных, который мы только что определили:

In [41]:
data_collator = DataCollatorSpeechSeq2SeqWithPadding(processor=processor)

### Метрика оценки

Мы будем использовать метрику коэффициента ошибок в словах (WER), которая является "де-факто" метрикой для оценки систем ASR-систем. За дополнительной информацией обратитесь к документу WER [docs](https://huggingface.co/metrics/wer). Мы загрузим метрику WER из 🤗 Evaluate:

In [43]:
metric = evaluate.load("wer")

print("Metric is loaded successfully.")

Downloading builder script:   0%|          | 0.00/4.49k [00:00<?, ?B/s]

Metric is loaded successfully.


Затем нам просто нужно определить функцию, которая принимает предсказания нашей модели и возвращает метрику WER. Эта функция, называемая `compute_metrics`, сначала заменяет `-100` на `pad_token_id` в `label_ids` (отменяя шаг, который мы применили в 
в коллаторе данных, чтобы правильно игнорировать подстановочные токены в потерях). Затем она декодирует прогнозы и идентификаторы меток в строки. Наконец, она вычисляет WER между прогнозами (predictions) и эталонными метками (reference labels):

In [None]:
def compute_metrics(pred):
    pred_ids = pred.predictions
    label_ids = pred.label_ids

    # заменяем -100 на pad_token_id
    label_ids[label_ids == -100] = tokenizer.pad_token_id

    # мы не хотим группировать токены при вычислении метрики
    pred_str = tokenizer.batch_decode(pred_ids, skip_special_tokens=True)
    label_str = tokenizer.batch_decode(label_ids, skip_special_tokens=True)

    wer = 100 * metric.compute(predictions=pred_str, references=label_str)

    return {"wer": wer}

### Загрузка контрольной точки предварительно обученной модели

Теперь давайте загрузим предварительно обученную контрольную точку модели Whisper `small`. Опять же, это тривиально благодаря использованию библиотеки 🤗 Transformers!

In [None]:
model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-small")

print("Checkpoint of the pre-trained model has been successfully loaded.")

Downloading:   0%|          | 0.00/1.97k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/967M [00:00<?, ?B/s]

Переопределение аргументов генерации - никакие токены не выдаются принудительно в качестве выходов декодера (смотрите [`forced_decoder_ids`](https://huggingface.co/docs/transformers/main_classes/text_generation#transformers.generation_utils.GenerationMixin.generate.forced_decoder_ids)), никакие токены не подавляются во время генерации (дополнительно смотрите [`suppress_tokens`](https://huggingface.co/docs/transformers/main_classes/text_generation#transformers.generation_utils.GenerationMixin.generate.suppress_tokens)):

In [None]:
model.config.forced_decoder_ids = None
model.config.suppress_tokens = []

### Определение конфигурации обучения

На последнем этапе мы определяем все параметры, связанные с процессом обучения. Более подробную информацию об аргументах процесса обучения можно найти в разделе Seq2SeqTrainingArguments [docs](https://huggingface.co/docs/transformers/main_classes/trainer#transformers.Seq2SeqTrainingArguments).

# Полезные ссылки

- [Fine-Tune Whisper For Multilingual ASR with Transformers (Статья)](https://huggingface.co/blog/fine-tune-whisper)