Skip to content

This project is intended to discover posssible appoaches to estimate audio similarity.

Notifications You must be signed in to change notification settings

kostya63/melodyst

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 

Repository files navigation

melodyst

This project is intended to discover posssible appoaches to estimate audio similarity.

Проект ставит следующую цель: научить нейронную сеть определять "схожесть" музыкальных фрагментов. Пример: если вам предложат прослушать происзведение Бетховена "К Элизе" в классическом исполнении, сыгранное на акустическй гитаре, сксофоне и в рок обработке, то человек без труда скажет, что это одна и та же мелодия. Так же должна ответить и нейронная сеть.

  1. Подготовка датасета. Датасе был собран вручную и включает в себя следующий набор фрагментов компазиций (продложительностью 20 секунд). Каждая композиция представлена примерно в 20-50 вариантах:

  2. Агументация Для генерализации и получения более усточивого решения применялаь следующая агументация к исходному источнику сиганала:

  • случайное изменение скорости воспроизведения
  • случайное "подмешивание" к сигналу сэмпла из библиотеки естественных шумов
  • комбинация двух техник
  1. Преобразование данных для входа в нейронную сеть. Преобразование данных представляет собой:
  • формирование моно сигнала
  • стандартизация длительности до 20-ти секунд (обрезка или дополнение нулями)
  • преобразование в Mel Spectrogram (так же был использован вариант построение 3-х спектрограмм с разными значениеми window и hop)
  • приведение к логарифмической шкале
  1. Архитектрура нейронной сети
  • сеть построена на базе Wide Residual Network
  • на выходе сети формируется embedding размерности 2
  1. Функция ошибки Поскольку решаемая задача отличается от классической задачи классификации, то использовалаь специализиррованная loss-функция Triple Margin Loss из библитеки Pytorch Metric Learning.

  2. Оптимизатор Использовался как стохастический градиентный спуск, так и Adam

  3. Процесс обучения TBD

About

This project is intended to discover posssible appoaches to estimate audio similarity.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages