# Практическое задание из раздела 6 - Дообучить модели преобразования текста в речь SpeechT5

## Подготовка IDE

### Установка необходимых библиотек

In [None]:
! pip install transformers datasets soundfile speechbrain accelerate

### Загрузим необходимые библиотеки

In [108]:
from huggingface_hub import notebook_login
from datasets import load_dataset, Audio
from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, Seq2SeqTrainingArguments, Seq2SeqTrainer, SpeechT5HifiGan
from collections import defaultdict
from speechbrain.pretrained import EncoderClassifier

import os
from typing import Any, Dict, List, Union
from dataclasses import dataclass
from functools import partial

import plotly.express as px

import torch


### Аутентификация блокнота в HuggingFace

In [73]:
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

### Настройки процесса обучения

В этом блоке собранны настройки которые глобально влияют на выбор модели и данных. Этот блок используется для быстрой перенастройки процесса обучения.

In [102]:
checkpoint = "microsoft/speecht5_tts"
YOUR_ACCOUNT = "artyomboyko"

## Подготовка датасета

### Описание полей датасета

Поля данных:
- audio_id (string) - идентификатор аудиосегмента
- language (datasets.ClassLabel) - числовой идентификатор аудиосегмента
- audio (datasets.Audio) - словарь, содержащий путь к аудио, декодированный массив аудио и частоту дискретизации. В непотоковом режиме (по умолчанию) путь указывает на локально извлеченный звук. В потоковом режиме путь - это относительный путь к аудио внутри архива (так как файлы не скачиваются и не извлекаются локально).
- raw_text (string) - исходный (орфографический) текст аудиофрагмента
- normalized_text (string) - нормализованная транскрипция аудиофрагмента
- gender (string) - пол говорящего
- speaker_id (string) - идентификатор диктора
- is_gold_transcript (bool) - ?
- accent (string) - тип ударения (акцент), например, "en_lt", если применимо, иначе "None".

### Препроцессинг датасета

Загрузим тренировочную подвыборку датасета:

In [75]:
dataset = load_dataset("facebook/voxpopuli", "nl", split="train")
len(dataset)

len(dataset)

Found cached dataset voxpopuli (/home/artyom/.cache/huggingface/datasets/facebook___voxpopuli/nl/1.3.0/b5ff837284f0778eefe0f642734e142d8c3f574eba8c9c8a4b13602297f73604)


20968

Загрузим препроцессор выбранной контрольной точки:

In [76]:
processor = SpeechT5Processor.from_pretrained(checkpoint)

Для подготовки текста нам понадобится часть процессора - токенизатор, поэтому возьмем его:

In [77]:
tokenizer = processor.tokenizer

Рассмотрим второй пример из подвыборки тренировочной части датасета:

In [78]:
dataset[1]

{'audio_id': '20180612-0900-PLENARY-4-nl_20180612-12:23:37_0',
 'language': 9,
 'audio': {'path': '/home/artyom/.cache/huggingface/datasets/downloads/extracted/d14405432731bce5787fb5bce90e7373d4cd2afbbf5e810a560d3a8558bfb523/train_part_0/20180612-0900-PLENARY-4-nl_20180612-12:23:37_0.wav',
  'array': array([-0.07354736,  0.0506897 ,  0.00134277, ..., -0.18676758,
         -0.0843811 ,  0.0039978 ]),
  'sampling_rate': 16000},
 'raw_text': 'Voorzitter, ondertussen 16 jaar geleden werd de euro ingevoerd in 12 landen van de Europese Unie.',
 'normalized_text': 'voorzitter ondertussen zestien jaar geleden werd de euro ingevoerd in twaalf landen van de europese unie.',
 'gender': 'male',
 'speaker_id': '129164',
 'is_gold_transcript': True,
 'accent': 'None'}

Датасете содержит два признаки `raw_text` и `normalized_text`. В токенизаторе SpeechT5 нет токенов для чисел, поэтому нам необходимо выбрать признак содержащий транскрибцию без цифр. В `normalized_text`
числа записываются в виде текста. Поэтому в качестве входного текста мы будем использовать `normalized_text`.

Модель SpeechT5 обучалась на английском языке, поэтому она может не распознать некоторые символы в голландском наборе данных. Если оставить все как есть, то эти символы будут преобразованы в токены `<unk>`. В голландском языке некоторые символы, например `à`, используются для выделения слогов. Чтобы сохранить смысл текста и не получить проблем в процессе обучения, заменим этот символ на обычное `a`.

Выявим неподдерживаемые токены, для этого извлечем все уникальные символы из датасета с помощью `SpeechT5Tokenizer`, который работает с символами как с токенами. Напишем функцию отображения `extract_all_chars`, которая объединяет транскрипции из всех примеров в одну строку и преобразует ее в набор символов. Важно задать `batched=True` и `batch_size=-1` в `dataset.map()`, тогда все транскрипции были доступны сразу для
функции отображения.

In [79]:
def extract_all_chars(batch):
    all_text = " ".join(batch["normalized_text"])
    vocab = list(set(all_text))
    return {"vocab": [vocab], "all_text": [all_text]}


vocabs = dataset.map(
    extract_all_chars,
    batched=True,
    batch_size=-1,
    keep_in_memory=True,
    remove_columns=dataset.column_names,
)

dataset_vocab = set(vocabs["vocab"][0])
tokenizer_vocab = {k for k, _ in tokenizer.get_vocab().items()}

Map:   0%|          | 0/20968 [00:00<?, ? examples/s]

Теперь у нас есть два набора символов: один со словарем из датасета, другой - со словарем из токенизатора. Разность между этими двумя наборами выявит неподдерживаемые символы, так как будет содержать будет содержать символы, которые есть в наборе данных, но отсутствуют в токенизаторе.

In [80]:
dataset_vocab - tokenizer_vocab

{' ', 'à', 'ç', 'è', 'ë', 'í', 'ï', 'ö', 'ü'}

Определим функцию, которая сопоставляет эти символы с допустимыми токенами токенизатора. Заметим, что пробелы уже заменены на `▁` в токенизаторе и не нуждаются в отдельной обработке.

In [81]:
replacements = [
    ("à", "a"),
    ("ç", "c"),
    ("è", "e"),
    ("ë", "e"),
    ("í", "i"),
    ("ï", "i"),
    ("ö", "o"),
    ("ü", "u"),
]


def cleanup_text(inputs):
    for src, dst in replacements:
        inputs["normalized_text"] = inputs["normalized_text"].replace(src, dst)
    return inputs


dataset = dataset.map(cleanup_text)

Loading cached processed dataset at /home/artyom/.cache/huggingface/datasets/facebook___voxpopuli/nl/1.3.0/b5ff837284f0778eefe0f642734e142d8c3f574eba8c9c8a4b13602297f73604/cache-1b7c5a626a90aa88.arrow


Теперь мы разобрались со специальными символами в тексте.

### Дикторы

Набор данных VoxPopuli включает речь нескольких дикторов. Построив гистограмму, можно получить представление о том, сколько данных имеется для каждого диктора.

In [82]:
speaker_counts = defaultdict(int)

for speaker_id in dataset["speaker_id"]:
    speaker_counts[speaker_id] += 1

fig = px.histogram(speaker_counts.values(),
                   nbins=20,
                   title='Количество примеров данных для каждого диктора',
                   text_auto=True)

fig.update_xaxes(title_text='Количество примеров')
fig.update_yaxes(title_text='Количество дикторов')

fig.show()

На гистограмме видно, что большинство дикторов имеет около 100 примеров. И всего лишь 10 дикторов имеет более 500 примеров. Ограничим набор данных дикторами, имеющими от 100 до 400 примеров. Это повысит эффективность обучения и сбалансирует датасет.

In [83]:
def select_speaker(speaker_id):
    return 100 <= speaker_counts[speaker_id] <= 400


dataset = dataset.filter(select_speaker, input_columns=["speaker_id"])

len(set(dataset["speaker_id"]))

Loading cached processed dataset at /home/artyom/.cache/huggingface/datasets/facebook___voxpopuli/nl/1.3.0/b5ff837284f0778eefe0f642734e142d8c3f574eba8c9c8a4b13602297f73604/cache-dfd2f3281d558342.arrow


42

Осталось всего 42 диктора, посмотрим сколько осталось примеров данных:

In [84]:
len(dataset)

9973

Осталось около 10000 примеров для 42 различных дикторов. Некоторые дикторы с небольшим количеством примеров могут иметь больше аудиофайлов, если примеры длинные. Однако определение общего объема аудиозаписей для каждого диктора требует сканирования всего датасета, что является трудоемким процессом, включающим загрузку и декодирование каждого аудиофайла.

### Эмбеддинги диктора

Для того чтобы модель TTS могла различать несколько дикторов, необходимо создать эмбеддинги диктора для каждого примера. Эмбеддинги дикторов - это дополнительный вход для модели, который фиксирует характеристики голоса конкретного диктора. Эмбеддинги диктора создаются с поомщью предварительно обученной модели [spkrec-xvect-voxceleb](https://huggingface.co/speechbrain/spkrec-xvect-voxceleb)
от SpeechBrain. Создадим функцию `create_speaker_embedding()`, которая принимает на воход волновую форму звука и возвращает 512-элементный вектор, содержащий соответствующие эмбеддинги диктора.

In [85]:
spk_model_name = "speechbrain/spkrec-xvect-voxceleb"

device = "cuda" if torch.cuda.is_available() else "cpu"
speaker_model = EncoderClassifier.from_hparams(
    source=spk_model_name,
    run_opts={"device": device},
    savedir=os.path.join("/tmp", spk_model_name),
)


def create_speaker_embedding(waveform):
    with torch.no_grad():
        speaker_embeddings = speaker_model.encode_batch(torch.tensor(waveform))
        speaker_embeddings = torch.nn.functional.normalize(speaker_embeddings, dim=2)
        speaker_embeddings = speaker_embeddings.squeeze().cpu().numpy()
    return speaker_embeddings

Модель `speechbrain/spkrec-xvect-voxceleb была обучена на английской речи из датасета VoxCeleb. Учебные примеры в данном руководстве представлены на голландском языке. Хотя мы считаем, что данная модель все равно будет генерировать разумные эмбеддинги диктора для нашего голландского датасета, это предположение может быть справедливо не во всех случаях. Для получения оптимальных результатов необходимо сначала обучить модель X-вектора на целевой речи. Это позволит модели лучше улавливать уникальные речевые особенности, присущие голландскому языку.

### Обработка датасета

Обработаем данные в тот формат, который ожидает модель. Создадим функцию `prepare_dataset`, которая принимает один пример и использует объект `SpeechT5Processor` для токенизации входного текста и загрузки целевого аудио в лог-мел спектрограмму. Она также должна добавлять эмбеддинги диктора в качестве дополнительного входного сигнала.

In [86]:
def prepare_dataset(example):
    audio = example["audio"]

    example = processor(
        text=example["normalized_text"],
        audio_target=audio["array"],
        sampling_rate=audio["sampling_rate"],
        return_attention_mask=False,
    )

    # strip off the batch dimension
    example["labels"] = example["labels"][0]

    # use SpeechBrain to obtain x-vector
    example["speaker_embeddings"] = create_speaker_embedding(audio["array"])

    return example

Проверим правильность обработки на одном из примеров:

In [87]:
processed_example = prepare_dataset(dataset[0])
list(processed_example.keys())

['input_ids', 'labels', 'speaker_embeddings']

> ***ВАЖНО!!! В РУКОВОДСТВЕ ВЫВОД НЕ ТАКОЙ! ['input_ids', 'labels', 'stop_labels', 'speaker_embeddings'] ЗДЕСЬ ВОЗМОЖЕН КОСЯК***

Эмбеддинги диктора должны представлять собой 512-элементный вектор:

In [88]:
processed_example["speaker_embeddings"].shape

(512,)

Метки должны представлять собой лог-мел спектрограмму с 80 мел бинами.

In [89]:
fig = px.imshow(processed_example["labels"].T)
fig.show()

Теперь необходимо применить функцию препроцессинга ко всему набору данных. Это займет от 5 до 10 минут.

In [90]:
dataset = dataset.map(prepare_dataset, remove_columns=dataset.column_names)

Map:   0%|          | 0/9973 [00:00<?, ? examples/s]

Token indices sequence length is longer than the specified maximum sequence length for this model (614 > 600). Running this sequence through the model will result in indexing errors


Появится предупреждение о том, что длина некоторых примеров в датасете превышает максимальную длину входных данных, которую может обработать модель (600 лексем). Удалите эти примеры из датасета. Здесь мы идем еще дальше и для того, чтобы увеличить размер батча, удаляем все, что превышает 200 токенов.

In [91]:
def is_not_too_long(input_ids):
    input_length = len(input_ids)
    return input_length < 200


dataset = dataset.filter(is_not_too_long, input_columns=["input_ids"])
len(dataset)

Filter:   0%|          | 0/9973 [00:00<?, ? examples/s]

8259

Разделим датасет на тренировочную и тестовую части. В качестве тестовой части возьмём 10% от всего датасета. Создадим базовое разделение на тренировочную и тестовую части:

In [92]:
dataset = dataset.train_test_split(test_size=0.1)

### Коллатор данных

Для того чтобы объединить несколько примеров в батч, необходимо определить пользовательский коллатор данных. Этот коллатор будет дополнять более короткие последовательности токенами, гарантируя, что все примеры будут иметь одинаковую длину. Для меток спектрограммы дополняемая части заменяются на специальное значение `-100`.
Это специальное значение указывает модели игнорировать эту часть спектрограммы при расчете потерь спектрограммы.

In [93]:
@dataclass
class TTSDataCollatorWithPadding:
    processor: Any

    def __call__(
        self, features: List[Dict[str, Union[List[int], torch.Tensor]]]
    ) -> Dict[str, torch.Tensor]:
        input_ids = [{"input_ids": feature["input_ids"]} for feature in features]
        label_features = [{"input_values": feature["labels"]} for feature in features]
        speaker_features = [feature["speaker_embeddings"] for feature in features]

        # collate the inputs and targets into a batch
        batch = processor.pad(
            input_ids=input_ids, labels=label_features, return_tensors="pt"
        )

        # replace padding with -100 to ignore loss correctly
        batch["labels"] = batch["labels"].masked_fill(
            batch.decoder_attention_mask.unsqueeze(-1).ne(1), -100
        )

        # not used during fine-tuning
        del batch["decoder_attention_mask"]

        # round down target lengths to multiple of reduction factor
        if model.config.reduction_factor > 1:
            target_lengths = torch.tensor(
                [len(feature["input_values"]) for feature in label_features]
            )
            target_lengths = target_lengths.new(
                [
                    length - length % model.config.reduction_factor
                    for length in target_lengths
                ]
            )
            max_length = max(target_lengths)
            batch["labels"] = batch["labels"][:, :max_length]

        # also add in the speaker embeddings
        batch["speaker_embeddings"] = torch.tensor(speaker_features)

        return batch

В SpeechT5 входная информация для декодера уменьшается в 2 раза. Другими словами, отбрасывается каждый второй временной шаг из целевой последовательности. Затем декодер предсказывает последовательность, которая в два раза длиннее. Поскольку исходная длина
целевой последовательности может быть нечетной, коллатор данных обязательно округляет максимальную длину батча до значения, кратного 2.

In [94]:
data_collator = TTSDataCollatorWithPadding(processor=processor)

## Обучение модели

Загрузите предварительно обученную модель из той же контрольной точки, которая использовалась для загрузки процессора: 

In [95]:
model = SpeechT5ForTextToSpeech.from_pretrained(checkpoint)

Опция `use_cache=True` несовместима с использованием градиентных контрольных точек. Отключите ее для обучения и снова включите кэш для генерации, чтобы ускорить  инференс:

In [96]:
# отключить кэш во время обучения, так как он несовместим с градиентными контрольными точками
model.config.use_cache = False

# заданим язык и задачу для генерации и снова включим кэш
model.generate = partial(model.generate, use_cache=True)

Определим аргументы обучения. Здесь мы не вычисляем никаких оценочных метрик в процессе обучения. Вместо этого мы будем рассматривать только потери:

In [97]:
training_args = Seq2SeqTrainingArguments(
    output_dir="speecht5_finetuned_voxpopuli_nl",  # change to a repo name of your choice
    per_device_train_batch_size=4,
    gradient_accumulation_steps=8,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    gradient_checkpointing=True,
    fp16=True,
    evaluation_strategy="steps",
    per_device_eval_batch_size=2,
    save_steps=1000,
    eval_steps=1000,
    logging_steps=25,
    report_to=["tensorboard"],
    load_best_model_at_end=True,
    greater_is_better=False,
    label_names=["labels"],
    push_to_hub=True,
)

Инстанцируем объект `Trainer` и передаем ему модель, набор данных и коллатор данных.

In [98]:
trainer = Seq2SeqTrainer(
    args=training_args,
    model=model,
    train_dataset=dataset["train"],
    eval_dataset=dataset["test"],
    data_collator=data_collator,
    tokenizer=processor,
)

Cloning https://huggingface.co/artyomboyko/speecht5_finetuned_voxpopuli_nl into local empty directory.


И с этим мы готовы приступить к обучению! Обучение займет несколько часов. В зависимости от используемого GPU возможно, что при начале обучения возникнет ошибка CUDA "out-of-memory". В этом случае можно уменьшить
размер `per_device_train_batch_size` постепенно в 2 раза и увеличить `gradient_accumulation_steps` в 2 раза, чтобы компенсировать это.

In [99]:
trainer.train()





Step,Training Loss,Validation Loss
1000,0.5255,0.476001
2000,0.5017,0.461938
3000,0.4961,0.456387
4000,0.4881,0.456335


TrainOutput(global_step=4000, training_loss=0.5230147137641906, metrics={'train_runtime': 3392.8236, 'train_samples_per_second': 37.727, 'train_steps_per_second': 1.179, 'total_flos': 1.6996591078399944e+16, 'train_loss': 0.5230147137641906, 'epoch': 17.21})

Поместите окончательную модель в 🤗 Hub:

In [100]:
trainer.push_to_hub()

Several commits (2) will be pushed upstream.
The progress bars may be unreliable.


Upload file pytorch_model.bin:   0%|          | 1.00/558M [00:00<?, ?B/s]

Upload file runs/Aug24_15-40-59_MSK-PC-01/events.out.tfevents.1692880864.MSK-PC-01.1030.1:   0%|          | 1.…

To https://huggingface.co/artyomboyko/speecht5_finetuned_voxpopuli_nl
   385cf86..8a35628  main -> main

To https://huggingface.co/artyomboyko/speecht5_finetuned_voxpopuli_nl
   8a35628..3908963  main -> main



'https://huggingface.co/artyomboyko/speecht5_finetuned_voxpopuli_nl/commit/8a356284dfcaa1d790298cde5a92cbb4f0b1a8d0'

## Инференс

После того как модель дообучена, ее можно использовать для инференса! Загрузим модель из 🤗 Hub:

In [103]:
model = SpeechT5ForTextToSpeech.from_pretrained(YOUR_ACCOUNT + "/speecht5_finetuned_voxpopuli_nl")

Downloading (…)lve/main/config.json:   0%|          | 0.00/2.10k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/585M [00:00<?, ?B/s]

Выберем пример, здесь мы возьмем пример из тестового набора данных. Получаем эмбеддинги диктора.

In [110]:
example = dataset["test"][304]
speaker_embeddings = torch.tensor(example["speaker_embeddings"]).unsqueeze(0)

Определим некоторый входной текст и токенизируем его.

In [111]:
text = "hallo allemaal, ik praat nederlands. groetjes aan iedereen!"

Выполним препроцессинг входного текста:

In [112]:
inputs = processor(text=text, return_tensors="pt")

Инстанцируем вокодер и сгенерируем речь:

In [113]:
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)

Готовы послушать результат?

In [114]:
from IPython.display import Audio

Audio(speech.numpy(), rate=16000)

В случае получения неудовлетворительных результатов с помощью этой модели на новом языке следует обратить внимание на следующие нюансы:
1. качество эмбеддингов диктора может быть существенным фактором
2. поскольку SpeechT5 была предварительно обучена на английских x-векторах, она показывает наилучшие результаты при использовании эмбеддингов английских дикторов
3. если синтезированная речь звучит плохо, попробуйте использовать другие эмбеддинги диктора
4. увеличение продолжительности обучения, вероятно, также повысит качество результатов
5. Еще один момент, с которым можно поэкспериментировать, - это настройка модели. Например, попробуйте использовать `config.reduction_factor = 1`, чтобы посмотреть, улучшит ли это результаты.