In [8]:
import sounddevice as sd
import numpy as np
import whisper
import queue
import torch

# Параметры записи
SAMPLERATE = 16000  # Частота дискретизации (Whisper требует 16kHz)
CHANNELS = 1        # Один канал (моно)
CHUNK_DURATION = 5  # Длина каждого куска в секундах
OVERLAP = 2         # Перекрытие между кусками в секундах
MODEL_SIZE = "base"  # Можно "tiny", "base", "small", "medium", "large"
LANGUAGE = "ru"  # Язык распознавания

# Очередь для хранения аудиоданных
audio_queue = queue.Queue()

# Загрузка модели
print("Загрузка модели Whisper...")
device = "cuda" if torch.cuda.is_available() else "cpu"
model = whisper.load_model(MODEL_SIZE, device=device)
print("Модель загружена!")

Загрузка модели Whisper...
Модель загружена!


In [9]:
# Функция обработки аудио в фоне
def callback(indata, frames, time, status):
    """Функция обратного вызова, получает аудиоданные"""
    if status:
        print(status)
    # Добавляем новый кусок в очередь
    audio_queue.put(indata.copy())

# Запускаем потоковую запись
with sd.InputStream(samplerate=SAMPLERATE, channels=CHANNELS, dtype='float32', callback=callback, blocksize=int(SAMPLERATE * (CHUNK_DURATION - OVERLAP))):
    print("Началась запись. Нажмите Ctrl+C для остановки.")
    
    # Кольцевой буфер для хранения аудиоданных
    ring_buffer = np.zeros(int(SAMPLERATE * CHUNK_DURATION), dtype=np.float32)
    
    try:
        while True:
            # Получаем новый кусок
            new_chunk = audio_queue.get()
            new_chunk = new_chunk[:, 0]  # Убираем лишнее измерение (канал)
            
            # Обновляем кольцевой буфер (сдвигаем влево, добавляем новый кусок справа)
            ring_buffer[:-len(new_chunk)] = ring_buffer[len(new_chunk):]
            ring_buffer[-len(new_chunk):] = new_chunk

            # Передаем в Whisper (Whisper сам обработает тишину)
            print("Обработка аудио...")
            result = model.transcribe(ring_buffer, language=LANGUAGE)
            print("📝 Распознанный текст:", result["text"])

    except KeyboardInterrupt:
        print("\nОстановка программы...")


Началась запись. Нажмите Ctrl+C для остановки.
Обработка аудио...
📝 Распознанный текст: 
Обработка аудио...
📝 Распознанный текст:  Жело есть вот 1000% чтобы падали pancakeies
Обработка аудио...
📝 Распознанный текст:  1400 в ноутекедplayer回over я дuser яииave
Обработка аудио...
📝 Распознанный текст: 
Обработка аудио...
📝 Распознанный текст:  Сочетающий. И останусь, что ты в мастере сидишь.
Обработка аудио...
📝 Распознанный текст:  abolище.
Обработка аудио...
📝 Распознанный текст: 
Обработка аудио...
📝 Распознанный текст: 
Обработка аудио...
📝 Распознанный текст: 
Обработка аудио...
📝 Распознанный текст:  Здесь я gateway с página Отпусти pinch
Обработка аудио...
📝 Распознанный текст:  Можешь вовсю-надую пойدا, вам расск zadает в машине.
Обработка аудио...
📝 Распознанный текст:  Bulletin,тоб Confederateję, cuz лучшее дело сейчас.
Обработка аудио...
📝 Распознанный текст:  שהдроп могу занять движение Studke в пробивище zehn, начали с
Обработка аудио...
📝 Распознанный текст:  Он к physicists

In [4]:
%pip freeze

absl-py==2.1.0
aiobotocore==2.14.0
aiohappyeyeballs==2.4.0
aiohttp==3.10.5
aioitertools==0.12.0
aiosignal==1.3.1
alabaster==0.7.16
alembic==1.13.2
annotated-types==0.7.0
anyascii==0.3.2
anyio==4.4.0
argon2-cffi==23.1.0
argon2-cffi-bindings==21.2.0
arrow==1.3.0
asttokens==2.4.1
async-lru==2.0.4
attrs==24.2.0
audioread==3.0.1
autowoe==1.3.2
babel==2.16.0
bangla==0.0.2
beautifulsoup4==4.12.3
bleach==6.1.0
blinker==1.9.0
blis==1.2.0
bnnumerizer==0.0.2
bnunicodenormalizer==0.1.7
botocore==1.35.7
cachetools==5.5.0
catalogue==2.0.10
catboost==1.2.7
certifi==2024.8.30
cffi==1.17.1
charset-normalizer==3.3.2
click==8.1.7
cloudpathlib==0.20.0
cmaes==0.11.1
colorama==0.4.6
colorlog==6.8.2
comm==0.2.2
comtypes==1.4.10
confection==0.1.5
contourpy==1.3.0
coqpit==0.0.17
cycler==0.12.1
cymem==2.0.11
Cython==3.0.12
dash==2.18.2
dash-core-components==2.0.0
dash-html-components==2.0.0
dash-table==5.0.0
datamol==0.12.5
dateparser==1.1.8
debugpy==1.8.5
decorator==5.1.1
defusedxml==0.7.1
docopt==0.6.2
docuti

In [10]:
import whisper
import torch
import sounddevice as sd
import numpy as np
import queue
import time
import difflib

# ⚡ Выбираем устройство (GPU или CPU)
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"🎯 Используем устройство: {device}")

# ⚙️ Загружаем модель Whisper
model = whisper.load_model("medium", device=device)  # Можно "small" или "large"

🎯 Используем устройство: cpu


In [None]:
# 🎤 Параметры записи
SAMPLERATE = 16000  # Частота дискретизации
CHANNELS = 1        # Моно
CHUNK_DURATION = 5  # Длина чанка (в секундах)
OVERLAP = 2         # Перекрытие (чтобы не терялись слова)
QUEUE = queue.Queue()

# 🔄 Буфер аудио (5 сек + 2 сек перекрытия)
audio_buffer = np.zeros(int(SAMPLERATE * (CHUNK_DURATION + OVERLAP)), dtype="float32")
last_text = ""  # Для удаления дубликатов

# 🎙️ Функция записи аудио в очередь
def callback(indata, frames, time, status):
    if status:
        print(f"⚠️ Ошибка записи: {status}")
    QUEUE.put(indata.copy())

# ⏺️ Старт потока записи
print("🎙 Запись запущена... (Нажмите Ctrl+C для остановки)")
stream = sd.InputStream(samplerate=SAMPLERATE, channels=CHANNELS, dtype="float32", callback=callback)
stream.start()

try:
    while True:
        # Получаем данные из очереди
        new_data = QUEUE.get()
        
        # 🛠️ Исправление ошибки с размерностью
        new_data = new_data.squeeze()

        # 🔄 Сдвигаем буфер и добавляем новые данные
        audio_buffer[:-len(new_data)] = audio_buffer[len(new_data):]  # Сдвиг влево
        audio_buffer[-len(new_data):] = new_data  # Добавляем свежий звук

        # 📝 Транскрибируем (без сохранения в файл)
        print("🔍 Распознаём...")
        result = model.transcribe(audio_buffer, language="ru")

        # 📜 Получаем текст
        current_text = result["text"].strip()

        # 🔍 Сравниваем с предыдущим чанком
        if last_text:
            seq = difflib.SequenceMatcher(None, last_text, current_text)
            match = seq.find_longest_match(0, len(last_text), 0, len(current_text))

            # 🧹 Если совпадение больше 60% — удаляем его
            if match.size > 5 and match.size / len(last_text) > 0.6:
                current_text = current_text[match.b + match.size:].strip()

        last_text = current_text  # Сохраняем текст для сравнения в будущем

        # 🔥 Вывод финального текста
        print(f"📜 Распознанный текст: {current_text}")
        print("=" * 50)

except KeyboardInterrupt:
    print("\n🛑 Остановка записи.")
    stream.stop()
    stream.close()
