Транскрибация и LLM-анализ телефонных звонков

Локальный стенд для транскрибации двухканальных телефонных аудиозаписей (русский язык) и их интеллектуальной обработки: суммаризация, оценка качества оператора, извлечение данных.

Стек

ASR: GigaAM-v3 (Сбер, MIT) — WER 8.4% на русском, ~1GB VRAM
LLM: Qwen3-8B через Ollama — суммаризация, оценка, извлечение данных
Аудио: ffmpeg — разделение стерео на моно-каналы
Язык: Python 3.10+

Требования к серверу

NVIDIA GPU с 16+ GB VRAM (тестировалось на RTX 5060 Ti 16GB)
Ubuntu 22.04 LTS
64GB RAM (рекомендуется)
~15GB диска на модели

Быстрый старт

1. Настройка сервера

git clone <repo-url>
cd 01_LLM_GR
chmod +x setup_server.sh
./setup_server.sh

Скрипт установит NVIDIA-драйвер, CUDA, Python-зависимости, Ollama и загрузит модель Qwen3-8B. При первом запуске потребуется перезагрузка после установки драйвера.

2. Активация окружения

source ~/venv_transcribe/bin/activate

3. Обработка звонка

python -m src.pipeline data/input/your_call.wav

Результат сохраняется в data/results/your_call.json.

Пайплайн

Аудиофайл (stereo WAV/MP3)
  → ffmpeg: разделение на оператор (L) и клиент (R)
  → GigaAM-v3: транскрипция каждого канала с таймкодами
  → Сборка хронологического диалога
  → Qwen3-8B: суммаризация → оценка качества → извлечение данных
  → JSON-результат

Структура проекта

├── src/
│   ├── config.py             # Конфигурация (пути, модели, параметры)
│   ├── audio_splitter.py     # ffmpeg: stereo → 2x mono
│   ├── transcriber.py        # GigaAM-v3 обёртка
│   ├── dialogue_builder.py   # Склейка каналов в диалог
│   ├── llm_analyzer.py       # Ollama API клиент
│   └── pipeline.py           # Главный оркестратор
├── prompts/
│   ├── summarize.md          # Промпт суммаризации
│   ├── quality_score.md      # Промпт оценки качества
│   └── extract_data.md       # Промпт извлечения данных
├── tests/                    # Тесты (pytest)
├── data/
│   ├── input/                # Входные аудиофайлы
│   ├── transcripts/          # Транскрипты
│   └── results/              # JSON-результаты
├── setup_server.sh           # Скрипт настройки сервера
└── requirements.txt          # Python-зависимости

Тесты

pytest tests/ -v

16 тестов покрывают все модули. Тесты работают без GPU (используют моки для GigaAM и Ollama).

Документация

docs/plans/2026-03-11-transcription-stand-design.md — дизайн-документ
agent_docs/index.md — карта документации

Name		Name	Last commit message	Last commit date
Latest commit History 89 Commits
agent_docs		agent_docs
config		config
data		data
docs/plans		docs/plans
grafana		grafana
profiles		profiles
prompts		prompts
scripts		scripts
src		src
tests		tests
.env.example		.env.example
.gitignore		.gitignore
AGENTS.md		AGENTS.md
README.md		README.md
claude.md		claude.md
requirements.txt		requirements.txt
setup_exporters.sh		setup_exporters.sh
setup_server.sh		setup_server.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Транскрибация и LLM-анализ телефонных звонков

Стек

Требования к серверу

Быстрый старт

1. Настройка сервера

2. Активация окружения

3. Обработка звонка

Пайплайн

Структура проекта

Тесты

Документация

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Транскрибация и LLM-анализ телефонных звонков

Стек

Требования к серверу

Быстрый старт

1. Настройка сервера

2. Активация окружения

3. Обработка звонка

Пайплайн

Структура проекта

Тесты

Документация

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages