# Формирование датасета с mel-спектрограммами из датасета HiFiTTS (состоящего из аудио-записей в формате .flac) для обучения модели Tacotron2

In [None]:
# Импорты
import sys
sys.path.append('tacotron2/')
from tacotron2.hparams import create_hparams
from tacotron2.layers import TacotronSTFT
import json
import pandas as pd
import os
from io import BytesIO
from scipy.io.wavfile import write

In [None]:
# Директория расположения датасета
hifitts_path = './hi_fi_tts_v0'

In [None]:
# Гиперпараметры
hp = create_hparams()

# Оконное преобразование Фурье
# Акустическая модель (tacotron2) и вокодер (waveglow) должны быть обучены на спектрограммах сформированных 
# с одинаковыми параметрами модуля STFT
stft = TacotronSTFT(
    hp.filter_length, 
    hp.hop_length, 
    hp.win_length,
    hp.n_mel_channels, 
    hp.sampling_rate, 
    hp.mel_fmin,
    hp.mel_fmax
)

In [None]:
def read_json(json_path):
    '''
    Функция отвечает за считывание файлов manifest.json
    '''
    dataset_type = json_path.split('_')[-1].replace('.json', '')
    with open(json_path, encoding='utf-8') as f:
        cond = "[" + f.read().replace("}\n{", "},\n{") + "]"
        json_data = json.loads(cond)
        for item in json_data:
            item['dataset_type'] = dataset_type
    return json_data

def flac_to_mel(load_flac_path, save_mel_path, dataset_type, txt_line):
    '''
    Функция формирует мел-спектрограмму из аудио-файла и сохраняет её
    '''
    
    # Считываем аудио-данные и частоту дискретизации файла (.flac, 44100Hz, pcm-f)
    flac_data, sample_rate = librosa.load(load_flac_path)
    
    # Формируем мел-спектрограмму
    melspec_1 = librosa.feature.melspectrogram(y=flac_data,sr=sample_rate)
    
    # Отсекаем слишком большие спектрограммы
    # для nvidia tesla t4 16gb с размером спектрограммы <1000 получалось установить размер батча=64
    # иначе может вылетать ошибка pytorch о переполнении памяти gpu, и придется уменьшать размер батча
    # зависит от gpu на которой будут происходить вычисления
    if melspec_1.shape[1] >= 1000:
        return False
    
    # Записываем информационную строку о текущем элементе в тексовый файл для обучения/валидации модели
    with open('./hifitts/' + dataset_type + '.txt', 'a') as f:
        f.write(txt_line)
        
    # Формируем новое аудио для записи в память
    audio = librosa.feature.inverse.mel_to_audio(melspec_1, sr=sample_rate)
    
    # Буфер памяти (что-бы не сохранять локально)
    buf = BytesIO()
    
    # Запись файла с другими параметрами, нежели были изначально
    # Необходимо, т.к. используется вокодер обученный на аудио с частотой дискретизации = 22050Hz
    # Так-же метод write модуля scipy считывает только wav формат
    # (считанные данные из flac файлов библиотеками librosa и soundfile, почему-то некорректно преобразовывались в 
    # mel-спектрограммы модулем stft)
    write(buf, sample_rate, audio)
    buffered_audio = buf.getvalue()
    buf.close()
    
    # Считываем аудио-данные и частоту дискретизации файла (.wav, 22050Hz, pcm-s)
    buf_data, sr = sf.read(buffered_audio)
    
    # Преобразовываем в тензор
    floated_data = torch.FloatTensor(buf_data.astype(np.float32))
    
    # Формирование мел-спектрограммы
    norm_data = floated_data / hp.max_wav_value
    norm_data = norm_data.unsqueeze(0)
    norm_data = torch.autograd.Variable(norm_data, requires_grad=False)
    melspec_2 = stft.mel_spectrogram(norm_data)
    melspec_2 = torch.squeeze(melspec_2, 0)
    
    # Сохранение файла
    np.save(save_mel_path, melspec_2)

In [None]:
# Формирование единого датафрейма по всем manifest-файлам .json 
manifests = [manifest for manifest in os.listdir(hifitts_path) if 'manifest' in manifest]
manifest_paths = [f'{hifitts_path}/{manifest}' for manifest in manifests]
manifest_jsons = [read_json(manifest_path) for manifest_path in manifest_paths]
manifest_dfs = [pd.DataFrame(manifest_json) for manifest_json in manifest_jsons]
manifests_df = pd.concat(manifest_dfs, axis=0)

In [None]:
df = manifests_df.reset_index(drop=True).copy()

# Формирование колонки с нормализованным id диктора (от 0 до 9)
df['reader_id'] = df['audio_filepath'].apply(lambda x: x.split('/')[1].split('_')[0])
readers_list = [reader_id for reader_id in df.reader_id.unique()]
readers_dict = {reader_id: str(readers_list.index(reader_id)) for reader_id in readers_list}
df['reader_id_norm'] = df['reader_id'].apply(lambda x: readers_dict[x])

# Формирование строки текстового файла по которому модель будет обучаться/валидироваться
df['mel_path'] = 'mels/' + df.index.astype('string') + '_' + df['dataset_type'] + '_' + df['reader_id']
df['txt_line'] = df['mel_path'] + '|' + df['text'] + '|' + df['reader_id_norm'] + '\n'

# Оставляем только необходимые колонки
df = df[['dataset_type', 'reader_id', 'reader_id_norm', 'text', 'audio_filepath', 'mel_path', 'txt_line']]

# Оставляем только тестовую и тренеровочную выборки
df = df[df['dataset_type'] != 'dev']

In [None]:
# Создание директории для записи файлов
os.mkdir('./hifitts')
os.mkdir('./hifitts/mels')

tmp_df = df.copy()

# Формирование колонки со "строкой-параметрами" для передачи в виде аргумента в функцию
tmp_df['line_for_create_mel'] = \
    tmp_df['audio_filepath'] + '&' + \
    tmp_df['mel_path'] + '&' + \
    tmp_df['dataset_type'] + '&' + \
    tmp_df['txt_line']

# Создание мелспектрограмм
tmp_df['line_for_create_mel'].apply(lambda x: flac_to_mel(
    x.split('&')[0], 
    x.split('&')[1], 
    x.split('&')[2],
    x.split('&')[3],
))