## Скрипты для создания метаданных для тренировки, валидации и бенчмарка к датасету MUSDB18

In [1]:
import json

In [2]:
import sys
import os

# Получаем абсолютный путь к корневой директории проекта (директория выше текущей)
root_path = os.path.abspath(os.path.join(os.getcwd(), '..'))

# Добавляем корневую директорию в sys.path
if root_path not in sys.path:
    sys.path.append(root_path)

In [3]:
def get_musdb_dataset_json_metadata(dataset_path):
    data = []

    # Перебираем все подпапки внутри папки "train"
    for root, dirs, _ in os.walk(dataset_path):
        for dir_name in dirs:
            dir_path = os.path.join(root, dir_name)
            for file_name in os.listdir(dir_path):
                if file_name.endswith(".wav") and not (file_name.startswith('mixture')):  # Проверяем, что файл имеет расширение .wav и не mixture
                    file_path = os.path.join(dir_path, file_name)  # Получаем полный путь к файлу
                    file_name_without_extension = os.path.splitext(file_name)[0]  # Получаем имя файла без расширения
                    if file_name_without_extension == 'other':
                        file_name_without_extension = 'other musical instruments'

                    data.append({"wav": file_path.replace('../', '', 1), "caption": file_name_without_extension})

    return data

In [4]:
data_folder = "../evaluation/data/musdb18/train"
data = get_musdb_dataset_json_metadata(data_folder)
# Создаем JSON объект
json_data = {"data": data}
filename = 'musdb18.train.json'
# Сохраняем JSON в файл
with open(f"../datafiles/{filename}", "w") as json_file:
    json.dump(json_data, json_file, indent=4)

print(f"Готово. JSON метаданные сохранены в файле {filename}")

Готово. JSON метаданные сохранены в файле musdb18.train.json


In [5]:
data_folder = "../evaluation/data/musdb18/test"
data = get_musdb_dataset_json_metadata(data_folder)
# Создаем JSON объект
json_data = {"data": data}
filename = 'musdb18.val.json'
# Сохраняем JSON в файл
with open(f"../datafiles/{filename}", "w") as json_file:
    json.dump(json_data, json_file, indent=4)

print(f"Готово. JSON метаданные сохранены в файле {filename}")

Готово. JSON метаданные сохранены в файле musdb18.val.json


In [6]:
def get_musdb_dataset_benchmark_csv_metadata(dataset_path):
    # Инициализируем список для хранения данных
    data = []
    idx = 1
    # Перебираем все подпапки внутри папки "train"
    for root, dirs, _ in os.walk(dataset_path):
        for dir_name in dirs:
            dir_path = os.path.join(root, dir_name)
            for file_name in os.listdir(dir_path):
                if file_name.endswith(".wav") and not (file_name.startswith('mixture')):  # Проверяем, что файл имеет расширение .wav и не mixture
                    file_path = os.path.join(dir_name, file_name)  # Получаем полный путь к файлу
                    file_name_without_extension = os.path.splitext(file_name)[0]  # Получаем имя файла без расширения
                    if file_name_without_extension == 'other':
                        file_name_without_extension = 'other musical instruments'

                    data.append([idx, file_path, file_name_without_extension, dir_name + "/mixture.wav"])
                    idx += 1
    return data

In [9]:
import csv

# Путь к вашей папке с данными
data_folder = "../evaluation/data/musdb18"
test_folder = f"{data_folder}/test"
data = get_musdb_dataset_benchmark_csv_metadata(test_folder)

filename = 'musdb18_eval.csv'
# Сохраняем JSON в файл
with open(f"../evaluation/metadata/{filename}", "w", newline ='') as csv_file:
    headers = ['idx', 'source', 'caption', 'mixture']
    writer = csv.writer(csv_file, delimiter=',')
    writer.writerow(i for i in headers)
    writer.writerows(data)

print(f"Готово. CSV метаданные сохранены в файле {filename}")

Готово. CSV метаданные сохранены в файле musdb18_eval.csv


In [8]:
import csv

# Путь к вашей папке с данными
data_folder = "../evaluation/data/musdb18"
train_folder = f"{data_folder}/train"
data = get_musdb_dataset_benchmark_csv_metadata(train_folder)

filename = 'musdb18_eval.csv'
# Сохраняем JSON в файл
with open(f"../evaluation/metadata/{filename}", "w", newline ='') as csv_file:
    headers = ['idx', 'source', 'caption', 'mixture']
    writer = csv.writer(csv_file, delimiter=',')
    writer.writerow(i for i in headers)
    writer.writerows(data)

print(f"Готово. CSV метаданные сохранены в файле {filename}")

Готово. CSV метаданные сохранены в файле musdb18_eval.csv
