# Практическое задание из раздела 4 - Дообучить модель классификации звука

## Подготовка IDE

### Загрузим необходимые библиотеки

In [58]:
from datasets import load_dataset, Audio
from transformers import AutoFeatureExtractor, TrainingArguments, Trainer, AutoModelForAudioClassification

from huggingface_hub import notebook_login

import evaluate

import numpy as np

## Аутентификация блокнота в HuggingFace

Для того, чтобы иметь возможность сохранить модель на HuggingFace Hub аутентифицируем блокнот:

In [59]:
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

## Подготовка датасета

### Описание полей датасета

Типы, связанные с каждым из полей данных, приведены ниже:
- `file`: [string] - путь к соответствующему файлу с данными,
- `audio`: содержит путь к звуковому файлу примера данных, 
- `array`: декодированная форма волны конкретного конкретного примера данных,
- `sampling_rate`: частота дискретизации (семплирования) конкретного примера данных,
- `genre`: признак классификации указывающий жанр конкретного примера данных.

### Загрузка датасет

In [60]:
gtzan = load_dataset("marsyas/gtzan", "all")
gtzan

Found cached dataset gtzan (/home/artyom/.cache/huggingface/datasets/marsyas___gtzan/all/0.0.0/8bd0e23c2d9b2be30d36bc6834319772dff22a3bd28527996612386cef003910)


  0%|          | 0/1 [00:00<?, ?it/s]

DatasetDict({
    train: Dataset({
        features: ['file', 'audio', 'genre'],
        num_rows: 999
    })
})

Разделим датасет на тренировочное и тестовое подмножества. Выделим для тестового подмножества 10% от датасета:

In [61]:
gtzan = gtzan['train'] # Обьект DatasetDict не имеет метода .train_test_split. Преобразуем DatasetDict в объект Dataset
print(type(gtzan))

gtzan = gtzan.train_test_split(seed=42, shuffle=True, test_size=0.1)
gtzan

Loading cached split indices for dataset at /home/artyom/.cache/huggingface/datasets/marsyas___gtzan/all/0.0.0/8bd0e23c2d9b2be30d36bc6834319772dff22a3bd28527996612386cef003910/cache-52d2398c8e4ac745.arrow and /home/artyom/.cache/huggingface/datasets/marsyas___gtzan/all/0.0.0/8bd0e23c2d9b2be30d36bc6834319772dff22a3bd28527996612386cef003910/cache-3bcc56e346e4d81c.arrow


<class 'datasets.arrow_dataset.Dataset'>


DatasetDict({
    train: Dataset({
        features: ['file', 'audio', 'genre'],
        num_rows: 899
    })
    test: Dataset({
        features: ['file', 'audio', 'genre'],
        num_rows: 100
    })
})

Посмотрим на один из примеров датасета:

In [62]:
gtzan["train"][7]

{'file': '/home/artyom/.cache/huggingface/datasets/downloads/extracted/26af6d86e0c979b46bcad90a661fea792ae66965860b310bdc366574d25d1457/genres/jazz/jazz.00059.wav',
 'audio': {'path': '/home/artyom/.cache/huggingface/datasets/downloads/extracted/26af6d86e0c979b46bcad90a661fea792ae66965860b310bdc366574d25d1457/genres/jazz/jazz.00059.wav',
  'array': array([-0.05224609,  0.04705811,  0.09838867, ...,  0.05691528,
          0.06399536,  0.07427979]),
  'sampling_rate': 22050},
 'genre': 5}

Частота дескритизации примеров датасета 22050 Гц.

### Предварительная обработка данных

Аудио- и речевые модели требуют, чтобы входные данные были закодированы в формате, который модель может обрабатывать.  преобразование звука во входной формат осуществляется с помощью feature extractor модели. Подобно токенизаторам, 🤗 Transformers предоставляет удобный класс AutoFeatureExtractor, который может автоматически выбирать нужный экстрактор признаков для заданной модели. Начнем с инстанцирования экстрактора признаков для DistilHuBERT из предварительно обученной контрольной точки:

In [63]:
model_id = "ntu-spml/distilhubert"
feature_extractor = AutoFeatureExtractor.from_pretrained(
    model_id, do_normalize=True, return_attention_mask=True
)

Поскольку частота дискретизации модели и набора данных различна, перед передачей аудиофайла в программу извлечения признаков его необходимо передискретизировать до 16 000 Гц. Для этого сначала нужно получить частоту дискретизации модели от экстрактора признаков:

In [64]:
sampling_rate = feature_extractor.sampling_rate
sampling_rate

16000

#### Передескретизация датасета

Используем метод cast_column для передескретизации частоты примеров датасета:

In [65]:
gtzan = gtzan.cast_column("audio", Audio(sampling_rate=sampling_rate))

Проверим частоту дескретизации прримера из датасета:

In [66]:
gtzan["train"][7]

{'file': '/home/artyom/.cache/huggingface/datasets/downloads/extracted/26af6d86e0c979b46bcad90a661fea792ae66965860b310bdc366574d25d1457/genres/jazz/jazz.00059.wav',
 'audio': {'path': '/home/artyom/.cache/huggingface/datasets/downloads/extracted/26af6d86e0c979b46bcad90a661fea792ae66965860b310bdc366574d25d1457/genres/jazz/jazz.00059.wav',
  'array': array([-0.02912004,  0.06167509,  0.1367783 , ...,  0.04330518,
          0.06990883,  0.05479369]),
  'sampling_rate': 16000},
 'genre': 5}

#### Масштабированием признаков

Для нормальной работы модели нобходимо чтобы все значения признака находились в одном и том же динамическом диапазоне. Это позволит получить стабильность  и сходимость в процессе обучения. Перед тем, как предпринимать какие-либо действия по подготовке примеров датасета к обучению модели посмотрим какие значения средней и дисперсии имеют наши данные. Вычислим их для первого примера:

In [67]:
# Выберем первый пример из датасета
sample = gtzan["train"][0]["audio"]

# Рассчитаем среднее и дисперсию для первого примера
print(f"Mean: {np.mean(sample['array']):.3}, Variance: {np.var(sample['array']):.3}")

Mean: 0.000185, Variance: 0.0493


Видно, что среднее значение уже близко к нулю, но дисперсия ближе к 0,05. Если бы дисперсия для выборки была больше, это могло бы вызвать проблемы с нашей моделью, так как динамический диапазон аудиоданных был бы очень мал и, следовательно, трудноразделим.
Применим экстрактор признаков и посмотрим, что получится на выходе:

In [68]:
inputs = feature_extractor(sample["array"], sampling_rate=sample["sampling_rate"])

print(f"inputs keys: {list(inputs.keys())}")

print(
    f"Mean: {np.mean(inputs['input_values']):.3}, Variance: {np.var(inputs['input_values']):.3}"
)

inputs keys: ['input_values', 'attention_mask']
Mean: -7.45e-09, Variance: 1.0


Cреднее значение теперь очень сильно приближается к нулю, а дисперсия - к единице! Именно в таком виде мы хотим получить наши аудиосэмплы перед подачей их в модель HuBERT.

Определим функцию, которую мы можем применить ко всем примерам в наборе данных. Поскольку мы ожидаем, что длина аудиоклипов будет составлять 30 секунд, мы также будем обрезать все более длинные клипы, используя аргументы max_length и truncation в экстракторе признаков следующим образом:

In [69]:
max_duration = 30.0 # Ограничение на максимальную длительность звука.


def preprocess_function(examples):
    audio_arrays = [x["array"] for x in examples["audio"]]
    inputs = feature_extractor(
        audio_arrays,
        sampling_rate=feature_extractor.sampling_rate,
        max_length=int(feature_extractor.sampling_rate * max_duration),
        truncation=True,
        return_attention_mask=True,
    )
    return inputs

Применим ее к набору данных с помощью метода map(). Метод .map() поддерживает работу с пакетами сэмплов, что мы и сделаем, установив batched=True. По умолчанию размер пакета составляет 1000, но мы уменьшим его до 100, чтобы пиковая оперативная память оставалась в разумных пределах. Кроме того, для упрощения обучения мы удалим из набора данных столбцы audio и file.

Примечание: Я произвожу подготовку датасета и обучение модели на локальной машине, поэтому могу увеличить параметр определяющий количество процессов обрабатывающих примеры набора данных num_proc больше 1. 

In [70]:
gtzan_encoded = gtzan.map(
    preprocess_function,
    remove_columns=["audio", "file"],
    batched=True,
    batch_size=100,
    num_proc=8,
)
gtzan_encoded

Loading cached processed dataset at /home/artyom/.cache/huggingface/datasets/marsyas___gtzan/all/0.0.0/8bd0e23c2d9b2be30d36bc6834319772dff22a3bd28527996612386cef003910/cache-eb321a26dd5e68eb_*_of_00008.arrow
Loading cached processed dataset at /home/artyom/.cache/huggingface/datasets/marsyas___gtzan/all/0.0.0/8bd0e23c2d9b2be30d36bc6834319772dff22a3bd28527996612386cef003910/cache-cf79401fb5431c39_*_of_00008.arrow


DatasetDict({
    train: Dataset({
        features: ['genre', 'input_values', 'attention_mask'],
        num_rows: 899
    })
    test: Dataset({
        features: ['genre', 'input_values', 'attention_mask'],
        num_rows: 100
    })
})

#### Переименование столбцов

Для того чтобы Trainer мог обрабатывать метки классов, необходимо переименовать колонку genre в label:

In [71]:
gtzan_encoded = gtzan_encoded.rename_column("genre", "label")
gtzan_encoded

DatasetDict({
    train: Dataset({
        features: ['label', 'input_values', 'attention_mask'],
        num_rows: 899
    })
    test: Dataset({
        features: ['label', 'input_values', 'attention_mask'],
        num_rows: 100
    })
})

Теперь у нас есть подготовленный к обучению модели датасет. Перейдём к обучению модели.

#### Отображение целочисленных идентификаторов классов в строковые (человекочитаемые)

Чтобы получить от модели человекочитаемый вывод, нам необходимо реализовать функцию перехода (отображения от целочисленных идентификаторов (например, 7) к человекочитаемым меткам классов (например, "поп") и обратно. Для этого можно использовать метод int2str() следующим образом:

In [72]:
id2label_fn = gtzan["train"].features["genre"].int2str
id2label_fn(gtzan["train"][0]["genre"])

id2label = {
    str(i): id2label_fn(i)
    for i in range(len(gtzan_encoded["train"].features["label"].names))
}
label2id = {v: k for k, v in id2label.items()}

id2label["7"]

'pop'

## Обучение модели

### Модель классификации аудио DistilHuBert

Сначала нужно загрузить модель для данной задачи. Для этого мы можем использовать класс AutoModelForAudioClassification, который автоматически добавит соответствующую классификационную голову в нашу предварительно обученную модель DistilHuBERT. Инстанцируем модели:

In [73]:
num_labels = len(id2label)

model = AutoModelForAudioClassification.from_pretrained(
    # model_id,
    "artyomboyko/distilhubert-finetuned-gtzan",
    num_labels=num_labels,
    label2id=label2id,
    id2label=id2label,
)

Downloading pytorch_model.bin:   0%|          | 0.00/94.8M [00:00<?, ?B/s]

Следующим шагом является определение аргументов обучения, включая размер пакета, шаги накопления градиента, количество эпох обучения и скорость обучения:

In [74]:
model_name = model_id.split("/")[-1] # Получим название модели из её ID
# batch_size = 16 # (Нужно пробовать как у https://huggingface.co/Kurokabe/distilhubert-finetuned-gtzan-finetuned-gtzan)
# gradient_accumulation_steps = 2
# num_train_epochs = 10

# training_args = TrainingArguments(
#     f"{model_name}-finetuned-gtzan",
#     evaluation_strategy="epoch",
#     save_strategy="epoch",
#     learning_rate=5e-5,
#     adam_beta1 = 0.9,
#     adam_beta2 = 0.999,
#     adam_epsilon = 1e-08,
#     lr_scheduler_type = 'linear',
#     per_device_train_batch_size=batch_size,
#     gradient_accumulation_steps=gradient_accumulation_steps,
#     per_device_eval_batch_size=batch_size,
#     num_train_epochs=num_train_epochs,
#     warmup_ratio=0.1,
#     logging_steps=5,
#     load_best_model_at_end=True,
#     metric_for_best_model="accuracy",
#     fp16=True,
#     push_to_hub=True,
# )

model_name = model_id.split("/")[-1]
batch_size = 4
gradient_accumulation_steps = 2
num_train_epochs = 10

training_args = TrainingArguments(
    f"{model_name}-finetuned-gtzan",
    evaluation_strategy="epoch",
    save_strategy="epoch",
    learning_rate=2e-6,
    adam_beta1 = 0.9,
    adam_beta2 = 0.999,
    adam_epsilon = 1e-08,
    lr_scheduler_type = 'linear',
    per_device_train_batch_size=batch_size,
    gradient_accumulation_steps=gradient_accumulation_steps,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=num_train_epochs,
    warmup_ratio=0.1,
    logging_steps=5,
    load_best_model_at_end=True,
    metric_for_best_model="accuracy",
    fp16=True,
    push_to_hub=True,
)


Определим метрику по которой мы будем оценивать качество модели. Поскольку набор данных сбалансирован, в качестве метрики мы будем использовать accuracy и загружать ее с помощью библиотеки 🤗 Evaluate:

In [75]:
metric = evaluate.load("accuracy")


def compute_metrics(eval_pred):
    """Computes accuracy on a batch of predictions"""
    predictions = np.argmax(eval_pred.predictions, axis=1)
    return metric.compute(predictions=predictions, references=eval_pred.label_ids)

Теперь у нас есть все необходимые компоненты! Давайте инстанцируем Trainer и обучим модель:

In [76]:
trainer = Trainer(
    model,
    training_args,
    train_dataset=gtzan_encoded["train"],
    eval_dataset=gtzan_encoded["test"],
    tokenizer=feature_extractor,
    compute_metrics=compute_metrics,
)

# trainer.train()
trainer.train()

Cloning https://huggingface.co/artyomboyko/distilhubert-finetuned-gtzan into local empty directory.


Download file pytorch_model.bin:   0%|          | 1.40k/90.4M [00:00<?, ?B/s]

Download file runs/Aug23_22-31-18_MSK-PC-01/events.out.tfevents.1692819085.MSK-PC-01.9812.0:   2%|2         | …

Download file runs/Aug24_09-19-15_MSK-PC-01/events.out.tfevents.1692857970.MSK-PC-01.36881.0:  19%|#8        |…

Download file runs/Aug24_10-32-02_MSK-PC-01/events.out.tfevents.1692862329.MSK-PC-01.36881.2:  10%|9         |…

Clean file runs/Aug24_09-19-15_MSK-PC-01/events.out.tfevents.1692857970.MSK-PC-01.36881.0:   2%|2         | 1.…

Download file runs/Aug24_09-53-04_MSK-PC-01/events.out.tfevents.1692859992.MSK-PC-01.36881.1:  19%|#8        |…

Clean file runs/Aug24_10-32-02_MSK-PC-01/events.out.tfevents.1692862329.MSK-PC-01.36881.2:   1%|1         | 1.…

Download file runs/Aug25_11-58-17_MSK-PC-01/events.out.tfevents.1692953904.MSK-PC-01.742.0:   8%|8         | 1…

Download file runs/Aug24_19-13-45_MSK-PC-01/events.out.tfevents.1692893631.MSK-PC-01.2934.1:   4%|4         | …

Clean file runs/Aug24_09-53-04_MSK-PC-01/events.out.tfevents.1692859992.MSK-PC-01.36881.1:   2%|2         | 1.…

Download file runs/Aug25_20-01-22_MSK-PC-01/events.out.tfevents.1692982913.MSK-PC-01.4900.0:  16%|#5        | …

Clean file runs/Aug23_22-31-18_MSK-PC-01/events.out.tfevents.1692819085.MSK-PC-01.9812.0:   0%|          | 1.0…

Download file runs/Aug24_18-35-56_MSK-PC-01/events.out.tfevents.1692891393.MSK-PC-01.2934.0:  19%|#8        | …

Clean file runs/Aug25_11-58-17_MSK-PC-01/events.out.tfevents.1692953904.MSK-PC-01.742.0:   1%|          | 1.00…

Clean file runs/Aug24_19-13-45_MSK-PC-01/events.out.tfevents.1692893631.MSK-PC-01.2934.1:   1%|          | 1.0…

Download file runs/Aug24_22-24-18_MSK-PC-01/events.out.tfevents.1692905068.MSK-PC-01.21038.0: 100%|##########|…

Clean file runs/Aug25_20-01-22_MSK-PC-01/events.out.tfevents.1692982913.MSK-PC-01.4900.0:   1%|          | 1.0…

Clean file runs/Aug24_18-35-56_MSK-PC-01/events.out.tfevents.1692891393.MSK-PC-01.2934.0:   2%|2         | 1.0…

Clean file runs/Aug24_22-24-18_MSK-PC-01/events.out.tfevents.1692905068.MSK-PC-01.21038.0:  19%|#8        | 1.…

Download file runs/Aug24_22-25-23_MSK-PC-01/events.out.tfevents.1692905133.MSK-PC-01.21038.1: 100%|##########|…

Clean file runs/Aug24_22-25-23_MSK-PC-01/events.out.tfevents.1692905133.MSK-PC-01.21038.1:   4%|4         | 1.…

Download file runs/Aug25_21-47-28_MSK-PC-01/events.out.tfevents.1692989269.MSK-PC-01.4900.1:   3%|3         | …

Download file training_args.bin: 100%|##########| 3.87k/3.87k [00:00<?, ?B/s]

Clean file training_args.bin:  26%|##5       | 1.00k/3.87k [00:00<?, ?B/s]

Clean file runs/Aug25_21-47-28_MSK-PC-01/events.out.tfevents.1692989269.MSK-PC-01.4900.1:   2%|2         | 1.0…

Clean file pytorch_model.bin:   0%|          | 1.00k/90.4M [00:00<?, ?B/s]



Epoch,Training Loss,Validation Loss,Accuracy
0,0.0128,0.75451,0.86
2,0.001,0.708037,0.87
2,0.0012,0.778643,0.85
4,0.0011,0.6914,0.87
4,0.0008,0.718203,0.86
6,0.0008,0.717233,0.86
6,0.0007,0.736022,0.86
8,0.0007,0.69727,0.87
8,0.1336,0.725623,0.86
9,0.0007,0.724089,0.86


TrainOutput(global_step=1120, training_loss=0.005684835747108861, metrics={'train_runtime': 2395.0251, 'train_samples_per_second': 3.754, 'train_steps_per_second': 0.468, 'total_flos': 6.1073780918976e+17, 'train_loss': 0.005684835747108861, 'epoch': 9.96})

Загрузим лучшую (из полученных в процессе обучения) модель на HuggingFace Hub:

In [22]:
kwargs = {
    "dataset_tags": "marsyas/gtzan",
    "dataset": "GTZAN",
    "model_name": f"{model_name}-finetuned-gtzan",
    "finetuned_from": model_id,
    "tasks": "audio-classification",
}

trainer.push_to_hub(**kwargs)

Upload file runs/Aug25_11-58-17_MSK-PC-01/events.out.tfevents.1692953904.MSK-PC-01.742.0:   0%|          | 1.0…

To https://huggingface.co/artyomboyko/distilhubert-finetuned-gtzan
   cdf1b56..73a8aea  main -> main

To https://huggingface.co/artyomboyko/distilhubert-finetuned-gtzan
   73a8aea..f07fac4  main -> main



'https://huggingface.co/artyomboyko/distilhubert-finetuned-gtzan/commit/73a8aea2055f9f43e217fcb9c85e676b60c020c0'

Поробуем загрузить в Trainer контрольную точку и отправить ее в HuggingFace Hub:

## Пробная загрузка модели из промежуточной контрольной точки в HuggingFace Hub

Загрузим наиболее удачную контрольную точку: 

In [20]:
model = AutoModelForAudioClassification.from_pretrained("distilhubert-finetuned-gtzan/checkpoint-5287/")

In [23]:
kwargs = {
    "dataset_tags": "marsyas/gtzan",
    "dataset": "GTZAN",
    "repo_id": "artyomboyko/distilhubert-finetuned-gtzan",
    "model_name": "distilhubert-finetuned-gtzan",
    "finetuned_from": "ntu-spml/distilhubert",
    "tasks": "audio-classification",
}
model.push_to_hub(**kwargs)

pytorch_model.bin:   0%|          | 0.00/94.8M [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/artyomboyko/distilhubert-finetuned-gtzan/commit/571b0a1d7c3f6f5cacac6a3f407c59c162db6ebc', commit_message='Upload HubertForSequenceClassification', commit_description='', oid='571b0a1d7c3f6f5cacac6a3f407c59c162db6ebc', pr_url=None, pr_revision=None, pr_num=None)

## Демо Gradio

In [None]:
from transformers import pipeline
import gradio as gr

model_id = "artyomboyko/distilhubert-finetuned-gtzan"
pipe = pipeline("audio-classification", model=model_id)

def classify_audio(filepath):
    preds = pipe(filepath)
    outputs = {}
    for p in preds:
        outputs[p["label"]] = p["score"]
    return outputs


demo = gr.Blocks()

title = "Classification of music"
description = """
This demo is designed to test the music classification. It is important to remember that music classification depends very much on the quality of the recording, for example, when classifying a recording from a 
microphone with poor high frequencies, the song "Evanescence - bring me to life" may not be correctly defined as classical music. But if we transfer a recording of the same song as a file, it is correctly 
identified as metal music. In addition, a real problem is caused by compositions in which there is a mixture of different styles of music, or modern styles of examples of which were not in the training dataset.
"""

mic_classify_audio = gr.Interface(
    fn=classify_audio,
    inputs=gr.Audio(source="microphone", type="filepath"),
    outputs=gr.outputs.Label(),
    title=title,
    description=description,
)

file_classify_audio = gr.Interface(
    fn=classify_audio,
    inputs=gr.Audio(source="upload", type="filepath"),
    outputs=gr.outputs.Label(),
    #examples=[["./example.wav"]],
    title=title,
    description=description,
)

with demo:
    gr.TabbedInterface([mic_classify_audio, file_classify_audio], ["Microphone", "Audio File"])

demo.launch(debug=True)

  outputs=gr.outputs.Label(),
  outputs=gr.outputs.Label(),
  outputs=gr.outputs.Label(),
  outputs=gr.outputs.Label(),


Running on local URL:  http://127.0.0.1:7863

To create a public link, set `share=True` in `launch()`.
