In [1]:
#@title 0. Подготовка окружения к работе
#@markdown Тут просто скачиваются и импортируются библиотеки, ничего интересного
!pip install gdown > /dev/null
!apt install fluidsynth > /dev/null
!pip install midi2audio > /dev/null
!pip install pretty_midi > /dev/null
!cp /usr/share/sounds/sf2/FluidR3_GM.sf2 ./font.sf2
!git clone https://github.com/sberbank-ai/music-composer.git

import os
import sys
import time
import glob
import torch
import gdown
import webbrowser
import ipywidgets
import pretty_midi
import numpy as np

from tqdm import tqdm
from midi2audio import FluidSynth
from google.colab import widgets, files
from IPython.display import Audio, display, FileLink, HTML
from ipywidgets import AppLayout, HBox, VBox, Label

url = 'https://drive.google.com/uc?id=1kqxyFI23J41jBeYa2Obhnymqyqj5aUGr'
output = 'model_big_v3_378k.pt'
gdown.download(url, output, quiet=True)

sys.path.append('/content/music-composer/src/')
from lib import constants
from lib import generation
from lib import midi_processing
from lib.midi_processing import PIANO_RANGE
from lib.model.transformer import MusicTransformer
from lib.colab_utils import id2genre, rugenre, genre2id, decode_and_write, convert_midi_to_wav, DownloadButton



Cloning into 'music-composer'...
remote: Enumerating objects: 69, done.[K
remote: Counting objects: 100% (69/69), done.[K
remote: Compressing objects: 100% (55/55), done.[K
remote: Total 69 (delta 9), reused 65 (delta 8), pack-reused 0[K
Unpacking objects: 100% (69/69), done.


In [2]:
#@title 1. Панель управления генерацией
#@markdown В данной панели можно настроить параметры генерации музыки под себя.  Пройдемся по всем пунктам:
#@markdown * __Genre__ - позволяет выбрать жанр в котором будут сгенерированы треки. Для каждого из жанров мы подобрали свой набор параметров, который позволяет лучше всего его генерировать, но об этом позднее.  
#@markdown * __Seed__ - позволяет зафиксировать сид с которым генерируются треки. Его фиксация может быть полезна если вы хотите изучить влияние того или иного параметра на генерацию - задайте численный сид и генерируйте несколько раз изменяя изучаемый параметр. В остальных случаях рекомендуется не заполнять данное поле.  
#@markdown * __Batch_size__ - количество одновременно генерируемых треков. Если переборщить - может не хватить памяти. Тут нужно подбирать баланс между кол-вом одновременных треков и их длиной.  
#@markdown * __Sequence length__ - длина трека. В связи с особенностями генерации мы не можем заранее сказать сколько по времени будет длиться трек, но увеличение этого параметра потенциально увеличивает длину трека. Именно с этим параметром надо балансировать Batch_size чтобы не закончилась видеопамять
#@markdown * __Remove bad generations__ - иногда модель начинает генерировать мусор. Если данный флаг включен - мы постараемся его обнаружить, отсеять и сгенерировать вместо него новые композиции. Соответственно увеличивает время генерации.
#@markdown * __Temperature__ - температурный скейлинг. Влияет на само распределение вероятностей, делая его более либо менее равновероятным. Тем самым регулируется разнообразие генерации.
#@markdown * __TopK__ - ограничение набора по верхней границе. Сэмплирование происходит из набора k наиболее вероятных токенов.
#@markdown * __At least K__ - ограничение набора по нижней границе. Сэмплирование будет гарантированно происходить как минимум из at_least_k наиболее вероятных токенов.
#@markdown * __TopP__ - параметр topp о котором можно подробнее прочитать в статье.
#@markdown * __TopP Temperature__ - температурный скейлинг применяющийся после отбора по критерию topp.
#@markdown * __Use Repetition Penalty__ - флаг для использования штрафов за повторы нот. Рекомендуется включать только если модель генерирует цикличные скучные треки.
#@markdown * __RP Penalty__ - размер штрафов за повтор нот. Чем выше тем меньше модель зацикливается в одних музыкальных фразах.
#@markdown * __Restore speed__ - скорость восстановления после штрафов модуля repetition penalty  

#@markdown Также в правом нижнем углу доступны кнопки по жанрам. С помощью них можно вернуться к подобранным нами параметрам генерации под каждый из жанров.

style = {'description_width': 'initial'}
genre_to_generate = ipywidgets.Dropdown(
    options=['calm', 'jazz', 'pop', 'classic'],
    value='calm',
    description='Genre:',
    disabled=False,
)
genre_to_generate.default_value = 'calm'

seed = ipywidgets.Text(
    value='',
    placeholder='leave blank for random seed',
    description='Seed:',
    disabled=False
)
seed.default_value = ''

temp = ipywidgets.FloatSlider( 
    value=1.0,
    min=0.1,
    max=10.0,
    step=0.05,
    description='Temperature:',
    disabled=False,
    continuous_update=False,
    orientation='horizontal',
    readout=True,
    readout_format='.2f',
    style=style
)
temp.default_value = 1.0

b_size = ipywidgets.IntSlider(
    value=8,
    min=1,
    max=16,
    step=1,
    description='Batch size:',
    disabled=False,
    continuous_update=False,
    orientation='horizontal',
    readout=True,
    readout_format='d',
    style=style
)
b_size.default_value = 8

seq_length = ipywidgets.IntSlider(
    value=512,
    min=256,
    max=2048,
    step=256,
    description='Sequence length:',
    disabled=False,
    continuous_update=False,
    orientation='horizontal',
    readout=True,
    readout_format='d',
    style=style
)
seq_length.default_value = 512

topk = ipywidgets.IntSlider(
    value=40,
    min=0,
    max=318,
    step=1,
    description='Top k:',
    disabled=False,
    continuous_update=False,
    orientation='horizontal',
    readout=True,
    readout_format='d',
    style=style
)
topk.default_value = 40

at_least_k = ipywidgets.IntSlider(
    value=1,
    min=0,
    max=318,
    step=1,
    description='At least k:',
    disabled=False,
    continuous_update=False,
    orientation='horizontal',
    readout=True,
    readout_format='d',
    style=style
)
at_least_k.default_value = 1

topp = ipywidgets.FloatSlider( 
    value=0.99,
    min=0.,
    max=1.0,
    step=0.01,
    description='Topp:',
    disabled=False,
    continuous_update=False,
    orientation='horizontal',
    readout=True,
    readout_format='.2f',
    style=style
)
topp.default_value = 0.99

topp_temperature = ipywidgets.FloatSlider( 
    value=1.0,
    min=0,
    max=10.0,
    step=0.05,
    description='Topp Temperature:',
    disabled=False,
    continuous_update=False,
    orientation='horizontal',
    readout=True,
    readout_format='.2f',
    style=style
)
topp_temperature.default_value = 1.0

use_rp = ipywidgets.Checkbox(
    value=False,
    description='Use Repetition Penalty',
    disabled=False,
    style=style
)
use_rp.default_value = False

rp_penalty = ipywidgets.FloatSlider( 
    value=0.05,
    min=0.,
    max=1.0,
    step=0.05,
    description='RP penalty:',
    disabled=False,
    continuous_update=False,
    orientation='horizontal',
    readout=True,
    readout_format='.2f',
    style=style
)
rp_penalty.default_value = 0.05

restore_speed = ipywidgets.FloatSlider( 
    value=0.7,
    min=0.,
    max=1.0,
    step=0.05,
    description='Restore speed:',
    disabled=False,
    continuous_update=False,
    orientation='horizontal',
    readout=True,
    readout_format='.2f',
    style=style
)
restore_speed.default_value = 0.7

remove_bad_generations = ipywidgets.Checkbox(
    value=True,
    description='Remove bad generations',
    disabled=False,
    style=style
)
remove_bad_generations.default_value = True

defaulting_widgets = (genre_to_generate, seed, b_size, seq_length, remove_bad_generations,
                      temp, topk, at_least_k, topp, topp_temperature, use_rp, rp_penalty, restore_speed)
def set_classic(button):
    for idx, widget in enumerate(defaulting_widgets):
      if idx == 0:
        widget.value = 'classic'
      elif idx == 5:
        widget.value = 1.1
      else:
        widget.value = widget.default_value

def set_calm(button):
    for idx, widget in enumerate(defaulting_widgets):
      if idx == 0:
        widget.value = 'calm'
      elif idx == 5:
        widget.value = 0.9
      else:
        widget.value = widget.default_value

def set_jazz(button):
    for idx, widget in enumerate(defaulting_widgets):
      if idx == 0:
        widget.value = 'jazz'
      elif idx == 5:
        widget.value = 0.95
      else:
        widget.value = widget.default_value

def set_pop(button):
    for idx, widget in enumerate(defaulting_widgets):
      if idx == 0:
        widget.value = 'pop'
      elif idx == 5:
        widget.value = 1.0
      else:
        widget.value = widget.default_value

calm_value_button = ipywidgets.Button(description='Calm')
calm_value_button.on_click(set_calm)
jazz_value_button = ipywidgets.Button(description='Jazz')
jazz_value_button.on_click(set_jazz)
pop_value_button = ipywidgets.Button(description='Pop')
pop_value_button.on_click(set_pop)
classic_value_button = ipywidgets.Button(description='Classic')
classic_value_button.on_click(set_classic)
buttons = (calm_value_button, jazz_value_button, pop_value_button, classic_value_button)
left_box = ipywidgets.VBox((buttons[0], buttons[1]))
right_box = ipywidgets.VBox((buttons[2], buttons[3]))

AppLayout(header=None,
          left_sidebar=VBox([genre_to_generate, seed, b_size, seq_length, remove_bad_generations]),
          center=VBox([temp, topk, at_least_k, topp, topp_temperature]),
          right_sidebar=VBox([use_rp, rp_penalty, restore_speed, ipywidgets.HBox((left_box, right_box))]),
          footer=None,
          pane_widths=[1, 1, 1],
          pane_heights=[1, 5, '60px'])

AppLayout(children=(VBox(children=(Dropdown(description='Genre:', options=('calm', 'jazz', 'pop', 'classic'), …

In [3]:
#@title 2. Запуск процесса генерации
load_path = '/content/model_big_v3_378k.pt'
out_dir = 'generated_' + time.strftime('%d-%m-%Y_%H-%M-%S') 
device = torch.device('cuda:0') if torch.cuda.is_available() else 'cpu'

if device == 'cpu':
  print('Generating on CPU. Expect lower generation speed.')

params = dict(
    target_seq_length = seq_length.value,
    temperature = temp.value,
    topk = topk.value,
    topp = topp.value,
    topp_temperature = topp_temperature.value,
    at_least_k = at_least_k.value,
    use_rp = use_rp.value,
    rp_penalty = rp_penalty.value,
    rp_restore_speed = restore_speed.value,
    seed = seed.value if seed.value else None
)

# START GENERATION

os.makedirs(out_dir, exist_ok=True)
genre_id = genre2id[genre_to_generate.value]

# init model
print('loading model...')
model = MusicTransformer(device, n_layers=12, d_model=1024, dim_feedforward=2048, num_heads=16, vocab_size=constants.VOCAB_SIZE, rpr=True).to(device).eval()
model.load_state_dict(torch.load(load_path, map_location=device))

# add information about genre (first token)
primer_genre = np.repeat([genre_id], b_size.value)
primer = torch.tensor(primer_genre)[:,None] + constants.VOCAB_SIZE - 4
while len(glob.glob(out_dir + '/*.mid')) != b_size.value:
  print('generating to:', os.path.abspath(out_dir))
  generated = generation.generate(model, primer, **params)
  generated = generation.post_process(generated, remove_bad_generations=remove_bad_generations.value)
  decode_and_write(generated, primer, primer_genre, out_dir)
  files_to_delete = len(glob.glob(out_dir + '/*.mid')) - b_size.value
  if files_to_delete > 0:
    for idx in range(files_to_delete):
      os.remove(sorted(glob.glob(out_dir + '/*.mid'), key=lambda x: int(x.split('_')[-2]))[-idx])
for midi_name in glob.glob(out_dir + '/*.mid'):
  convert_midi_to_wav(midi_name)

loading model...
generating to: /content/generated_16-09-2021_09-14-22


100%|██████████| 511/511 [03:05<00:00,  2.75it/s]


2 bad samples will be removed.
generating to: /content/generated_16-09-2021_09-14-22


100%|██████████| 511/511 [03:05<00:00,  2.75it/s]


2 bad samples will be removed.


In [None]:
#@title 3. Прослушать и скачать результаты генерации
wav_files = glob.glob(out_dir + '/*.wav')
if len(wav_files) > 3:
  rows = round(len(wav_files) / 3) + 1
  columns = 3
else:
  rows = 1
  columns = len(wav_files)
grid = widgets.Grid(rows, columns)
current_position = 0
for row in range(rows):
  if current_position > len(wav_files) - 1:
      break
  for column in range(columns):
    if current_position > len(wav_files) - 1:
      break
    with grid.output_to(row, column):
      genre = rugenre[wav_files[current_position].split('.wav')[0].split('_')[-1]]
      print(f'Номер трека: {current_position + 1}')
      print(f'Жанр: {genre}')
      display(Audio(wav_files[current_position]))
      display(DownloadButton(filename=wav_files[current_position], description='Скачать .wav'))
      display(DownloadButton(filename=wav_files[current_position].replace('.wav', '.mid'), description='Скачать .midi'))
    current_position += 1