Voxlab — Whisper + TTS Studio

Веб-приложение для транскрибации речи и синтеза голоса. Работает локально в Docker, не требует GPU.

Быстрый старт

# 1. Скачать docker-compose.yml
mkdir voxlab && cd voxlab
curl -O https://raw.githubusercontent.com/deadchack123/voxlab/main/docker-compose.yml

# 2. Запустить
docker compose up -d

Открой http://localhost:5050 — готово!

При первом запуске скачается модель Whisper (~1.6 ГБ). Модель кэшируется и больше не качается.

Как пользоваться

Транскрибация (STT)

Открой http://localhost:5050
Загрузи источник:
- Файл — перетащи аудио/видео в зону загрузки (или нажми для выбора)
- Ссылка — вставь URL с YouTube, Rutube, VK и 1000+ сайтов
Жди результат — текст появится с таймкодами
Скачай результат в нужном формате: TXT, SRT, VTT или JSON

YouTube: если видео не загружается — вставь cookies через кнопку "Вставить из буфера" (нужно расширение Get cookies.txt для Chrome)

Настройки транскрибации (раскрывающаяся панель):

Модель Whisper — от tiny (быстро, неточно) до large-v3 (медленно, точно). По умолчанию large-v3-turbo — лучший баланс
Язык — авто-определение или ручной выбор (13 языков)
Диаризация — определяет кто говорит (спикер 1, спикер 2...), можно переименовать спикеров

Очистка текста ИИ (раскрывающаяся панель):

Убирает слова-паразиты, исправляет пунктуацию
Нужен API-ключ: Groq (бесплатно), OpenRouter (бесплатно) или Anthropic
Настраивается прямо в интерфейсе

Озвучка (TTS)

Переключись на вкладку Озвучка (TTS)
Загрузи образец голоса (аудио/видео, 10-30 сек чистой речи)
Подкрути голос если нужно — высота, скорость, выразительность, тембр
Введи текст и нажми Озвучить
Скачай результат (WAV)

Источники голоса:

Загрузить файл — любое аудио/видео с голосом
Из транскрибации — взять голос из ранее загруженного файла
Записать с микрофона — записать голос прямо в браузере
Из пресета — использовать ранее сохранённый голос

Пресеты — можно сохранить голос + настройки и переиспользовать.

Настройка

Создай .env рядом с docker-compose.yml:

# Модель Whisper (по умолчанию large-v3-turbo)
# Варианты: tiny, base, small, medium, large-v1, large-v2, large-v3, large-v3-turbo
WHISPER_MODEL=large-v3-turbo

Поддерживаемые форматы

Вход: MP4, WebM, MP3, WAV, M4A, OGG, FLAC и другие (всё что понимает ffmpeg)
Экспорт транскрибации: TXT, SRT (субтитры), VTT (субтитры), JSON
Экспорт озвучки: WAV

Сборка из исходников

Для разработки и тестирования:

git clone https://github.com/deadchack123/voxlab.git
cd voxlab
docker compose -f docker-compose.dev.yml up -d --build

GPU-ускорение (NVIDIA)

GPU даёт 10-20x ускорение транскрибации. Нужна видеокарта NVIDIA с поддержкой CUDA.

Запуск с GPU

docker compose -f docker-compose.gpu.yml up -d --build

В логах должно быть: Using device: cuda (compute_type: float16)

Требования для GPU

Linux: установить NVIDIA Container Toolkit
Windows (WSL2):
1. Установить последний NVIDIA драйвер для Windows (Game Ready или Studio)
2. Включить WSL2 в Docker Desktop (Settings → General → Use WSL2)
3. Docker Desktop автоматически подхватит GPU через WSL2
macOS: не поддерживается (нет NVIDIA GPU)

Проверка GPU в контейнере

docker compose -f docker-compose.gpu.yml exec whisper python -c "import torch; print(torch.cuda.is_available())"

Системные требования

Docker и Docker Compose
4+ ГБ RAM (8 ГБ рекомендуется)
~5 ГБ диска (образ + модели)
CPU (GPU не требуется)
Работает на Linux, macOS (Intel и Apple Silicon), Windows (через Docker Desktop)

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.github/workflows		.github/workflows
static		static
.env.example		.env.example
.gitignore		.gitignore
CLAUDE.md		CLAUDE.md
Dockerfile		Dockerfile
Dockerfile.gpu		Dockerfile.gpu
README.md		README.md
app.py		app.py
docker-compose.dev.yml		docker-compose.dev.yml
docker-compose.gpu.yml		docker-compose.gpu.yml
docker-compose.yml		docker-compose.yml
transcribe.py		transcribe.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Voxlab — Whisper + TTS Studio

Быстрый старт

Как пользоваться

Транскрибация (STT)

Озвучка (TTS)

Настройка

Поддерживаемые форматы

Сборка из исходников

GPU-ускорение (NVIDIA)

Запуск с GPU

Требования для GPU

Проверка GPU в контейнере

Системные требования

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Voxlab — Whisper + TTS Studio

Быстрый старт

Как пользоваться

Транскрибация (STT)

Озвучка (TTS)

Настройка

Поддерживаемые форматы

Сборка из исходников

GPU-ускорение (NVIDIA)

Запуск с GPU

Требования для GPU

Проверка GPU в контейнере

Системные требования

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages