<a href="https://colab.research.google.com/github/chmyrega/MelBandRoformer_UserFriendly-Colab/blob/main/MelBandRoformer_UserFriendly_Colab.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🎵 Mel-Band Roformer - Профессиональное извлечение аудио

Мощный инструмент для разделения аудио на компоненты с использованием различных специализированных моделей.

### ⚡ Перед началом:
1. Убедитесь, что у вас включен GPU (Среда выполнения → Сменить среду выполнения → GPU)
2. Подготовьте аудиофайлы (MP3, WAV, FLAC, M4A, OGG)

---

---
## 📚 Описание моделей:

### 🎤 **Вокальные модели**
- Оптимизированы для извлечения голоса
- Сохраняют детали и тембр вокала
- Подходят для создания акапелл

### 🎸 **Инструментальные модели**
- Создают чистые минусовки
- Минимальные артефакты от вокала
- Версии V7z и V8 - самые современные

### 🎤 **Караоке модель**
- Специально для караоке-треков
- Максимально чистое удаление вокала
- Сохраняет бэк-вокал (опционально)

### 🧪 **Экспериментальные модели**
- Новейшие разработки
- Могут давать неожиданные результаты
- V10 - последняя версия

### 🎵 **Специальные модели**
- **Denoise**: удаление шумов и артефактов
- **Small**: быстрая обработка, меньше качество

---

### 💡 Советы по использованию:
- Для современной музыки используйте стандартные модели
- Для старых записей попробуйте модель с шумоподавлением
- Экспериментальные модели могут дать лучший результат на сложных треках
- Качество результата зависит от исходного файла (320 kbps MP3 или выше)

### ❓ Что вы получите:
- **[имя_файла]_vocals.wav** - извлеченный вокал
- **[имя_файла]_instrumental.wav** - музыка без вокала

### 🔄 Хотите попробовать другую модель?
1. Вернитесь к Шагу 1 и выберите другую модель
2. Повторите установку (Шаг 2)
3. Обработайте те же или новые файлы

### 🚀 Продвинутое использование:
Можно обработать один трек разными моделями и сравнить результаты!

## Шаг 1: Выберите модель для работы
Запустите ячейку и выберите подходящую модель из списка (разверните)

In [1]:
import ipywidgets as widgets
from IPython.display import display, clear_output
import os

# Определение моделей
models = {
    "🎤 Стандартная модель для вокала": {
        "url": "https://huggingface.co/KimberleyJSN/melbandroformer/resolve/main/MelBandRoformer.ckpt",
        "config": "config_vocals_mel_band_roformer.yaml",
        "description": "Оригинальная модель для извлечения вокала. Хорошо работает с большинством треков."
    },
    "🎸 Инструментальная (последняя версия)": {
        "url": "https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/Inst_GaboxFv7z.ckpt",
        "config": "config_vocals_mel_band_roformer.yaml",
        "description": "Оптимизирована для создания качественных инструменталов. Лучше удаляет вокал."
    },
    "🎹 Инструментальная V8 (стабильная)": {
        "url": "https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/Inst_GaboxFv8.ckpt",
        "config": "config_vocals_mel_band_roformer.yaml",
        "description": "Проверенная версия для инструменталов. Хороший баланс качества и скорости."
    },
    "🎙️ Вокальная (улучшенная)": {
        "url": "https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/vocals/voc_fv5.ckpt",
        "config": "config_vocals_mel_band_roformer.yaml",
        "description": "Специализирована на извлечении вокала. Лучше сохраняет детали голоса."
    },
    "🎤 Караоке модель": {
        "url": "https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/karaoke/Karaoke_GaboxV1.ckpt",
        "config": "config_vocals_mel_band_roformer.yaml",
        "description": "Оптимизирована для создания караоке-версий. Максимально чисто удаляет вокал."
    },
    "🧪 Инструментал (эксперимент) V1": {
        "url": "https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/Inst_ExperimentalV1.ckpt",
        "config": "config_vocals_mel_band_roformer.yaml",
        "description": "Новейшая экспериментальная модель. Может давать отличные результаты."
    },
    "🎵 Шумоподавление и очистка": {
        "url": "https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/denoisedebleed.ckpt",
        "config": "config_vocals_mel_band_roformer.yaml",
        "description": "Специальная модель для удаления шумов и артефактов. Хороша для старых записей."
    }
}

# Создание интерфейса выбора
print("🎯 Выберите модель для работы:\n")

model_selector = widgets.RadioButtons(
    options=list(models.keys()),
    value=list(models.keys())[0],
    description='',
    disabled=False,
    layout=widgets.Layout(width='600px')
)

description_output = widgets.Output()

def on_model_change(change):
    with description_output:
        clear_output()
        selected = models[change['new']]
        print(f"\n📝 Описание: {selected['description']}")

model_selector.observe(on_model_change, names='value')

# Кнопка подтверждения
confirm_button = widgets.Button(
    description='Подтвердить выбор',
    disabled=False,
    button_style='success',
    tooltip='Нажмите для подтверждения выбора модели',
    icon='check'
)

output = widgets.Output()

def on_button_clicked(b):
    with output:
        clear_output()
        selected_model = model_selector.value
        model_info = models[selected_model]

        # Сохраняем выбор
        os.environ['SELECTED_MODEL_URL'] = model_info['url']
        os.environ['SELECTED_MODEL_CONFIG'] = model_info['config']
        os.environ['SELECTED_MODEL_NAME'] = selected_model

        print(f"\n✅ Выбрана модель: {selected_model}")
        print("\n💡 Теперь перейдите к следующему шагу для установки!")

confirm_button.on_click(on_button_clicked)

# Отображение виджетов
display(model_selector)
display(description_output)
display(confirm_button)
display(output)

# Показать описание первой модели
on_model_change({'new': list(models.keys())[0]})

🎯 Выберите модель для работы:



RadioButtons(layout=Layout(width='600px'), options=('🎤 Стандартная модель для вокала', '🎸 Инструментальная (по…

Output()

Button(button_style='success', description='Подтвердить выбор', icon='check', style=ButtonStyle(), tooltip='На…

Output()

## Шаг 2: Установка и настройка
Запустите эту ячейку после выбора модели

In [None]:
import os
from google.colab import files
import shutil
from IPython.display import clear_output

# Проверка выбора модели
if 'SELECTED_MODEL_URL' not in os.environ:
    print("❌ Сначала выберите модель в предыдущем шаге!")
else:
    selected_model = os.environ.get('SELECTED_MODEL_NAME', 'Модель')
    print(f"🔧 Начинаем установку с моделью: {selected_model}")

    # Клонирование репозитория
    !git clone https://github.com/KimberleyJensen/Mel-Band-Roformer-Vocal-Model --quiet
    os.chdir('/content/Mel-Band-Roformer-Vocal-Model')

    # Незаметно обновляем inference.py для поддержки всех форматов
    with open('inference.py', 'r') as f:
        content = f.read()

    # Добавляем импорт librosa
    import_position = content.find('import warnings')
    content = content[:import_position] + 'import librosa\n' + content[import_position:]

    # Заменяем поиск файлов
    old_line = "all_mixtures_path = glob.glob(args.input_folder + '/*.wav')"
    new_lines = '''# Поддержка различных форматов аудио
    supported_formats = ['*.wav', '*.mp3', '*.flac', '*.m4a', '*.ogg']
    all_mixtures_path = []
    for format in supported_formats:
        all_mixtures_path.extend(glob.glob(os.path.join(args.input_folder, format)))
    all_mixtures_path = sorted(list(set(all_mixtures_path)))'''
    content = content.replace(old_line, new_lines)

    # Добавляем функцию загрузки
    load_audio_func = '''def load_audio(path):
    """Load audio with support for various formats"""
    try:
        audio, sr = sf.read(path)
    except:
        audio, sr = librosa.load(path, sr=None, mono=False)
        if audio.ndim == 2:
            audio = audio.T
        else:
            audio = audio.reshape(-1, 1)
    return audio, sr


'''
    run_folder_pos = content.find('def run_folder')
    content = content[:run_folder_pos] + load_audio_func + content[run_folder_pos:]

    # Заменяем sf.read на load_audio
    content = content.replace('mix, sr = sf.read(path)', 'mix, sr = load_audio(path)')
    content = content.replace('original_mix, _ = sf.read(path)', 'original_mix, _ = load_audio(path)')

    # Добавляем проверку для mono
    mono_check = '''elif mix.shape[1] == 1:
            original_mono = True
            mix = np.concatenate([mix, mix], axis=1)'''
    mono_pos = content.find('mix = np.stack([mix, mix], axis=-1)')
    if mono_pos != -1:
        next_line_pos = content.find('\n', mono_pos) + 1
        content = content[:next_line_pos] + '        ' + mono_check + '\n' + content[next_line_pos:]

    # Русифицируем сообщения
    replacements = [
        ('Total tracks found:', '🎵 Найдено треков для обработки:'),
        ('Processing track', '🎼 Обработка трека'),
        ('Using model:', '   Используется модель:'),
        ('Elapsed time:', '⏱️  Общее время обработки:'),
        ('CUDA is not available', '⚠️  CUDA недоступна')
    ]

    for old, new in replacements:
        content = content.replace(old, new)

    # Сохраняем обновленный файл
    with open('inference.py', 'w', encoding='utf-8') as f:
        f.write(content)

    # Установка зависимостей
    print("📦 Устанавливаем необходимые библиотеки...")
    !pip install -r requirements.txt --quiet
    !pip install librosa --quiet

    # Загрузка выбранной модели
    model_url = os.environ['SELECTED_MODEL_URL']
    print(f"🤖 Загружаем модель: {selected_model}...")
    !wget -q {model_url} -O model.ckpt

    # Загрузка конфига если нужен специальный
    if 'karaoke' in model_url and 'karaokegabox' in model_url:
        !wget -q https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/karaoke/karaokegabox_1750911344.yaml -O config_custom.yaml
        os.environ['MODEL_CONFIG'] = '/content/Mel-Band-Roformer-Vocal-Model/config_custom.yaml'
    elif 'inst_gabox.yaml' in model_url:
        !wget -q https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/instrumental/inst_gabox.yaml -O config_custom.yaml
        os.environ['MODEL_CONFIG'] = '/content/Mel-Band-Roformer-Vocal-Model/config_custom.yaml'
    elif 'voc_gabox.yaml' in model_url:
        !wget -q https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/vocals/voc_gabox.yaml -O config_custom.yaml
        os.environ['MODEL_CONFIG'] = '/content/Mel-Band-Roformer-Vocal-Model/config_custom.yaml'
    else:
        os.environ['MODEL_CONFIG'] = '/content/Mel-Band-Roformer-Vocal-Model/configs/config_vocals_mel_band_roformer.yaml'

    # Создание папок
    os.makedirs('/content/songs', exist_ok=True)
    os.makedirs('/content/results', exist_ok=True)

    clear_output()
    print(f"✅ Установка завершена!")
    print(f"🎯 Выбранная модель: {selected_model}")
    print("\n📋 Поддерживаемые форматы: MP3, WAV, FLAC, M4A, OGG")
    print("\n💡 Теперь вы можете загрузить свои аудиофайлы!")

✅ Установка завершена!
🎯 Выбранная модель: 🎙️ Вокальная (улучшенная)

📋 Поддерживаемые форматы: MP3, WAV, FLAC, M4A, OGG

💡 Теперь вы можете загрузить свои аудиофайлы!


In [None]:
# Проверка размера и перезагрузка модели
import os

model_path = '/content/Mel-Band-Roformer-Vocal-Model/model.ckpt'

# Проверяем размер файла
if os.path.exists(model_path):
    size = os.path.getsize(model_path) / (1024*1024)  # в MB
    print(f"📊 Размер модели: {size:.2f} MB")

    if size < 256:  # Размер члена проверяем (у модели)
        print("⚠️ Модель слишком маленькая, возможно повреждена!")
        print("🔄 Перезагружаем модель...")

        # Удаляем поврежденный файл
        !rm -f {model_path}

        # Загружаем заново с отображением прогресса
        model_url = os.environ['SELECTED_MODEL_URL']
        print(f"📥 Загрузка из: {model_url}")
        !wget {model_url} -O {model_path} --show-progress
else:
    print("❌ Модель не найдена!")

# Проверяем, можно ли загрузить модель
import torch
try:
    test_load = torch.load(model_path, map_location='cpu')
    print("✅ Модель загружена успешно!")
    del test_load  # Освобождаем память
except Exception as e:
    print(f"❌ Ошибка загрузки модели: {e}")

📊 Размер модели: 870.73 MB
✅ Модель загружена успешно!


## Шаг 3: Загрузите ваши аудиофайлы
Поддерживаются форматы: MP3, WAV, FLAC, M4A, OGG

In [None]:
# Очистка папки с песнями
!rm -rf /content/songs/*

print("📤 Выберите аудиофайлы для обработки:")
print("(Можно выбрать несколько файлов одновременно)\n")

uploaded = files.upload()

# Перемещение файлов в папку songs
for filename in uploaded.keys():
    shutil.move(filename, f'/content/songs/{filename}')
    print(f"✓ Загружен: {filename}")

print(f"\n📁 Всего загружено файлов: {len(uploaded)}")

if 'SELECTED_MODEL_NAME' in os.environ:
    print(f"\n🎯 Будет использована модель: {os.environ['SELECTED_MODEL_NAME']}")

📤 Выберите аудиофайлы для обработки:
(Можно выбрать несколько файлов одновременно)



Saving Erika de Bonis - I Don't Know (Radio Mix).m4a to Erika de Bonis - I Don't Know (Radio Mix).m4a
✓ Загружен: Erika de Bonis - I Don't Know (Radio Mix).m4a

📁 Всего загружено файлов: 1

🎯 Будет использована модель: 🎙️ Вокальная (улучшенная)


## Шаг 4: Обработка файлов
Нажмите кнопку запуска ниже. Время обработки зависит от выбранной модели и размера файлов.

In [None]:
import time

# Проверка наличия файлов
if not os.listdir('/content/songs'):
    print("❌ Сначала загрузите аудиофайлы!")
else:
    # Очистка папки с результатами
    !rm -rf /content/results/*

    selected_model = os.environ.get('SELECTED_MODEL_NAME', 'Модель')
    config_path = os.environ.get('MODEL_CONFIG', '/content/Mel-Band-Roformer-Vocal-Model/configs/config_vocals_mel_band_roformer.yaml')

    print(f"🎵 Начинаем обработку с моделью: {selected_model}")
    print("━" * 50)

    start_time = time.time()

    # Запуск обработки
    !cd /content/Mel-Band-Roformer-Vocal-Model && python inference.py \
        --config_path {config_path} \
        --model_path /content/Mel-Band-Roformer-Vocal-Model/model.ckpt \
        --input_folder /content/songs \
        --store_dir /content/results

    elapsed_time = time.time() - start_time

    print("\n" + "━" * 50)
    print(f"✅ Обработка завершена за {elapsed_time:.1f} секунд!")
    print("\n📂 Результаты сохранены в папке /content/results")

    # Показать информацию о модели
    print(f"\n🎯 Использованная модель: {selected_model}")

    # Подсказки в зависимости от модели
    if 'караоке' in selected_model.lower():
        print("\n💡 Совет: Эта модель оптимизирована для создания караоке-треков.")
    elif 'инструментальная' in selected_model.lower():
        print("\n💡 Совет: Эта модель создает чистые инструменталы.")
    elif 'вокальная' in selected_model.lower():
        print("\n💡 Совет: Эта модель лучше всего извлекает вокал.")
    elif 'шумоподавление' in selected_model.lower():
        print("\n💡 Совет: Эта модель хорошо убирает шумы из старых записей.")

🎵 Начинаем обработку с моделью: 🎙️ Вокальная (улучшенная)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
   Используется модель: /content/Mel-Band-Roformer-Vocal-Model/model.ckpt
🎵 Найдено треков для обработки: 1
  0% 0/1 [00:00<?, ?it/s]
🎼 Обработка трека 1/1: Erika de Bonis - I Don't Know (Radio Mix).m4a
Estimated total processing time for this track: 89.66 seconds
Estimated time remaining: 0.00 seconds
100% 1/1 [00:36<00:00, 36.56s/it]
⏱️  Общее время обработки: 37.56 sec

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
✅ Обработка завершена за 47.4 секунд!

📂 Результаты сохранены в папке /content/results

🎯 Использованная модель: 🎙️ Вокальная (улучшенная)

💡 Совет: Эта модель лучше всего извлекает вокал.


## Шаг 5: Скачать результаты

In [None]:
import zipfile
from datetime import datetime
from google.colab import files # Import files module again

# Проверка наличия результатов
if not os.path.exists('/content/results') or not os.listdir('/content/results'):
    print("❌ Нет результатов для скачивания. Сначала обработайте файлы!")
else:
    # Создание архива с результатами
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    model_name = os.environ.get('SELECTED_MODEL_NAME', 'results').replace(' ', '_').replace('🎤', '').replace('🎸', '').replace('🎹', '').replace('🎙️', '').replace('🧪', '').replace('🎵', '')
    zip_name = f'{model_name}_{timestamp}.zip'

    print("📦 Подготовка результатов к скачиванию...")

    with zipfile.ZipFile(zip_name, 'w') as zipf:
        for root, dirs, files_list in os.walk('/content/results'): # Renamed 'files' to 'files_list'
            for file in files_list:
                file_path = os.path.join(root, file)
                arcname = os.path.relpath(file_path, '/content/results')
                zipf.write(file_path, arcname)

    # Скачивание архива
    files.download(zip_name)
    print(f"\n✅ Архив {zip_name} готов к скачиванию!")

    # Показать список обработанных файлов
    print("\n📋 Обработанные файлы:")
    for root, dirs, files_list in os.walk('/content/results'):
        for file in files_list:
            print(f"  • {file}")

    print(f"\n🎯 Использованная модель: {os.environ.get('SELECTED_MODEL_NAME', 'Неизвестно')}")

📦 Подготовка результатов к скачиванию...


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>


✅ Архив _Вокальная_(улучшенная)_20250714_015611.zip готов к скачиванию!

📋 Обработанные файлы:
  • Erika de Bonis - I Don't Know (Radio Mix)_vocals.wav
  • Erika de Bonis - I Don't Know (Radio Mix)_instrumental.wav

🎯 Использованная модель: 🎙️ Вокальная (улучшенная)
