# VOSK

##### https://alphacephei.com/vosk/

## Подключение библиотеки

In [1]:
import os
import wave
import sys
import pickle
import warnings
import numpy as np
import json
import io

import torch
from datasets import load_dataset, load_from_disk
from datasets.features import Audio
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import pandas as pd
import torchaudio
from pydub import AudioSegment

from vosk import Model, KaldiRecognizer, SetLogLevel

# Для теста WER - Word Error Rate
# CER - Character Error Rate
# MER - Match Error Rate
# WIL - Word Information Lost
from jiwer import wer, cer, mer, wil

## Использование CUDA

In [2]:
# Check if CUDA is available
if torch.cuda.is_available():
    # Get the device name
    device = torch.cuda.current_device()
    print(f"Code is connected to CUDA. Using GPU: {torch.cuda.get_device_name(device)}")
else:
    print("CUDA is not available. Running on CPU.")

Code is connected to CUDA. Using GPU: NVIDIA GeForce GTX 1650 Ti


In [3]:
# Все равно у меня не хватит памяти для выполнения(
device = 'cpu'

Не загружаем модель через CUDA, памяти не хватило

`RuntimeError: CUDA out of memory. Tried to allocate 16.00 MiB (GPU 0; 3.63 GiB total capacity; 2.56 GiB already allocated; 7.12 MiB free; 2.58 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF`

In [4]:
# Создадим датафрейм, который будет собирать данные и сохранять
info = pd.DataFrame()

In [5]:
# Установите уровень журнала на -1, чтобы отключить отладочные сообщения
SetLogLevel(0)

## Загрузка модели

In [6]:
LANG_ID = "ru"
MODEL_ID = 'vosk-model-ru-0.42'
PATH_MODEL = '/home/redalexdad/recognition_speech/vosk'
# Кол-во текстов для предсказания
# ВНИМАНИЕ, НЕ СТАВЬ БОЛЬШЕ 10, ОС ЗАВИСНЕТ И ЯДРО УПАДЕТ!
SAMPLES = 10

In [7]:
%%time
# Нет метода, который позволяет сохранить модель в локальном месте
model = Model(model_name=MODEL_ID, lang=LANG_ID)

LOG (VoskAPI:ReadDataFiles():model.cc:213) Decoding params beam=13 max-active=7000 lattice-beam=6
LOG (VoskAPI:ReadDataFiles():model.cc:216) Silence phones 1:2:3:4:5:6:7:8:9:10
LOG (VoskAPI:RemoveOrphanNodes():nnet-nnet.cc:948) Removed 1 orphan nodes.
LOG (VoskAPI:RemoveOrphanComponents():nnet-nnet.cc:847) Removing 2 orphan components.
LOG (VoskAPI:Collapse():nnet-utils.cc:1488) Added 1 components, removed 2
LOG (VoskAPI:ReadDataFiles():model.cc:248) Loading i-vector extractor from /home/redalexdad/.cache/vosk/vosk-model-ru-0.42/ivector/final.ie
LOG (VoskAPI:ComputeDerivedVars():ivector-extractor.cc:183) Computing derived variables for iVector extractor
LOG (VoskAPI:ComputeDerivedVars():ivector-extractor.cc:204) Done.
LOG (VoskAPI:ReadDataFiles():model.cc:279) Loading HCLG from /home/redalexdad/.cache/vosk/vosk-model-ru-0.42/graph/HCLG.fst
LOG (VoskAPI:ReadDataFiles():model.cc:297) Loading words from /home/redalexdad/.cache/vosk/vosk-model-ru-0.42/graph/words.txt
LOG (VoskAPI:ReadDataF

CPU times: user 20 s, sys: 3.09 s, total: 23.1 s
Wall time: 23.6 s


## Функции

### Предсказание

In [8]:
# Освобождаем памяти
torch.cuda.empty_cache()

def create_recognizer():
    SAMPLE_RATE = 16000
    
    rec = KaldiRecognizer(model, SAMPLE_RATE)
    rec.SetWords(True)
    rec.SetPartialWords(True)
    
    return rec

In [9]:
# Освобождаем памяти
torch.cuda.empty_cache()

def predict_text(batch):
    audio_data = batch["audio"]
    rec = create_recognizer()

    original_text = batch["sentence"]
    
    # Конвертация mp3 в wav
    audio_array = np.array(audio_data['array'], dtype=np.float32)
    audio_array = (audio_array * 32767).astype(np.int16)  # приведение к формату int16
    audio = AudioSegment(audio_array.tobytes(), frame_rate=audio_data['sampling_rate'], sample_width=2, channels=1)

    # Проход по аудиофайлу
    if rec.AcceptWaveform(audio.raw_data):
        result = rec.Result()
        # print(f"Оригинальный текст: {original_text}")
        # print(f"Предсказанный текст: {result['text']}")
        # print("-" * 100)
    else:
        partial_result = rec.PartialResult()
        # print(f"Оригинальный текст: {original_text}")
        # print(f"Предсказанный текст (частичный): {partial_result}")
        # print("-" * 100)
    
    # Вывод окончательного результата
    final_result = rec.FinalResult()
    # Извлекаем текст, если он есть.
    if isinstance(final_result, str):
        # Если final_result строка, преобразуем ее в словарь
        final_result = json.loads(final_result)
    predicted_text = final_result.get('text', '')
    
    print(f"Оригинальный текст: {original_text}")
    print(f"Предсказанный текст: {predicted_text}")
    print("-" * 100)
    
    return {"predicted_text": predicted_text}

### Тест метрики WER, CER, MER, WIL

In [10]:
# Функция для вычисления WER, CER, MER, WIL
def compute_metrics(original_texts, transcription):
    wer_score = wer(original_texts, transcription)
    cer_score = cer(original_texts, transcription)
    mer_score = mer(original_texts, transcription)
    wil_score = wil(original_texts, transcription)
    
    return wer_score, cer_score, mer_score, wil_score

## Загрузка датасета `common_voice_11_0`

In [11]:
%%time
test_dataset_cv_11 = load_dataset("mozilla-foundation/common_voice_11_0", LANG_ID, split=f"test[:{SAMPLES}]", trust_remote_code=True)

CPU times: user 380 ms, sys: 25.5 ms, total: 405 ms
Wall time: 20.2 s


In [12]:
test_dataset_cv_11

Dataset({
    features: ['client_id', 'path', 'audio', 'sentence', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment'],
    num_rows: 10
})

In [13]:
if test_dataset_cv_11.features['audio'].sampling_rate != 16_000:
    test_dataset_cv_11 = test_dataset_cv_11.cast_column(
        'audio',
        Audio(sampling_rate=16_000)
    )

### Вывод результатов

In [14]:
%%time
# Добавление новой колонки с предсказанными текстами
test_dataset_cv_11 = test_dataset_cv_11.map(predict_text)



Map:   0%|          | 0/10 [00:00<?, ? examples/s]

Оригинальный текст: К сожалению, эти предложения не нашли отражения в тексте.
Предсказанный текст: к сожалению эти предложения не нашли отражения в тексте
----------------------------------------------------------------------------------------------------
Оригинальный текст: Если не будет возражений, я буду считать, что Ассамблея согласна с этим предложением.
Предсказанный текст: если не будет возражений я буду считать что ассамблея согласна с этим предложением
----------------------------------------------------------------------------------------------------
Оригинальный текст: Новошахтинск — милый город
Предсказанный текст: новошахтинск милый город
----------------------------------------------------------------------------------------------------
Оригинальный текст: Мы особенно рады отметить, что число скрывающихся от правосудия лиц уменьшилось.
Предсказанный текст: все равно надо знать что число строящихся помещений слушаюсь
--------------------------------------------------------

In [15]:
test_dataset_cv_11

Dataset({
    features: ['client_id', 'path', 'audio', 'sentence', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment', 'predicted_text'],
    num_rows: 10
})

### Тест WER, CER, MER, WIL

In [16]:
# Приведем все к нижнему регистру
original_texts = [ref.lower() for ref in test_dataset_cv_11['sentence']]
transcription = [pred.lower() for pred in test_dataset_cv_11['predicted_text']]

In [17]:
# Получаем метрику
wer_score, cer_score, mer_score, wil_score = compute_metrics(original_texts, transcription)

In [18]:
print(f"Word Error Rate (WER): {wer_score * 100:.2f}%")
print(f"Character Error Rate (CER): {cer_score * 100:.2f}%")
print(f"Match Error Rate (MER): {mer_score * 100:.2f}%")
print(f"Word Information Lost (WIL): {wil_score * 100:.2f}%")

Word Error Rate (WER): 37.97%
Character Error Rate (CER): 15.76%
Match Error Rate (MER): 37.97%
Word Information Lost (WIL): 60.01%


In [19]:
# Создание датафрейма
info = info.append({
    'MODEL': MODEL_ID,
    'DATASET': test_dataset_cv_11.info.dataset_name,
    'ORIGINAL TEXT': original_texts,
    'PREDICTION TEXT': transcription,
    'WER': wer_score,
    'CER': cer_score,
    'MER': mer_score,
    'WIL': wil_score,
    'SAMPLES': SAMPLES
}, ignore_index=True)
display(info)

  info = info.append({


Unnamed: 0,MODEL,DATASET,ORIGINAL TEXT,PREDICTION TEXT,WER,CER,MER,WIL,SAMPLES
0,vosk-model-ru-0.42,common_voice_11_0,"[к сожалению, эти предложения не нашли отражен...",[к сожалению эти предложения не нашли отражени...,0.379747,0.157598,0.379747,0.6001,10


## Загрузка датасета `common_voice_12_0`

In [20]:
%%time
test_dataset_cv_12 = load_dataset("mozilla-foundation/common_voice_12_0", LANG_ID, split=f"test[:{SAMPLES}]", trust_remote_code=True)

CPU times: user 306 ms, sys: 4.69 ms, total: 311 ms
Wall time: 12.2 s


In [21]:
test_dataset_cv_12

Dataset({
    features: ['client_id', 'path', 'audio', 'sentence', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment'],
    num_rows: 10
})

In [22]:
if test_dataset_cv_12.features['audio'].sampling_rate != 16_000:
    test_dataset_cv_12 = test_dataset_cv_12.cast_column(
        'audio',
        Audio(sampling_rate=16_000)
    )

### Вывод результатов

In [23]:
%%time
# Добавление новой колонки с предсказанными текстами
test_dataset_cv_12 = test_dataset_cv_12.map(predict_text)

Map:   0%|          | 0/10 [00:00<?, ? examples/s]

Оригинальный текст: К сожалению, эти предложения не нашли отражения в тексте.
Предсказанный текст: к сожалению эти предложения не нашли отражения в тексте
----------------------------------------------------------------------------------------------------
Оригинальный текст: Толпа озвереет, будет тереться, ощетинит ножки стоглавая вошь.
Предсказанный текст: толпа озвереет будет тереться ощетинит ножки стоглавая вошь
----------------------------------------------------------------------------------------------------
Оригинальный текст: А жизнь ее была не весела.
Предсказанный текст: а жизнь её была невесела
----------------------------------------------------------------------------------------------------
Оригинальный текст: Если не будет возражений, я буду считать, что Ассамблея согласна с этим предложением.
Предсказанный текст: если не будет возражений я буду считать что ассамблея согласна с этим предложением
---------------------------------------------------------------------------

In [24]:
test_dataset_cv_12

Dataset({
    features: ['client_id', 'path', 'audio', 'sentence', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment', 'predicted_text'],
    num_rows: 10
})

### Тест WER, CER, MER, WIL

In [25]:
# Приведем все к нижнему регистру
original_texts = [ref.lower() for ref in test_dataset_cv_12['sentence']]
transcription = [pred.lower() for pred in test_dataset_cv_12['predicted_text']]

In [26]:
# Получаем метрику
wer_score, cer_score, mer_score, wil_score = compute_metrics(original_texts, transcription)

In [27]:
print(f"Word Error Rate (WER): {wer_score * 100:.2f}%")
print(f"Character Error Rate (CER): {cer_score * 100:.2f}%")
print(f"Match Error Rate (MER): {mer_score * 100:.2f}%")
print(f"Word Information Lost (WIL): {wil_score * 100:.2f}%")

Word Error Rate (WER): 36.90%
Character Error Rate (CER): 13.49%
Match Error Rate (MER): 36.47%
Word Information Lost (WIL): 57.67%


In [28]:
# Создание датафрейма
info = info.append({
    'MODEL': MODEL_ID,
    'DATASET': test_dataset_cv_12.info.dataset_name,
    'ORIGINAL TEXT': original_texts,
    'PREDICTION TEXT': transcription,
    'WER': wer_score,
    'CER': cer_score,
    'MER': mer_score,
    'WIL': wil_score,
    'SAMPLES': SAMPLES
}, ignore_index=True)
display(info)

  info = info.append({


Unnamed: 0,MODEL,DATASET,ORIGINAL TEXT,PREDICTION TEXT,WER,CER,MER,WIL,SAMPLES
0,vosk-model-ru-0.42,common_voice_11_0,"[к сожалению, эти предложения не нашли отражен...",[к сожалению эти предложения не нашли отражени...,0.379747,0.157598,0.379747,0.6001,10
1,vosk-model-ru-0.42,common_voice_12_0,"[к сожалению, эти предложения не нашли отражен...",[к сожалению эти предложения не нашли отражени...,0.369048,0.134935,0.364706,0.576655,10


## Загрузка датасета `common_voice_14_0`

In [29]:
%%time
test_dataset_cv_14 = load_dataset("mozilla-foundation/common_voice_14_0", LANG_ID, split=f"test[:{SAMPLES}]", trust_remote_code=True)

CPU times: user 325 ms, sys: 8.73 ms, total: 333 ms
Wall time: 13.2 s


In [30]:
test_dataset_cv_14

Dataset({
    features: ['client_id', 'path', 'audio', 'sentence', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment', 'variant'],
    num_rows: 10
})

In [31]:
if test_dataset_cv_14.features['audio'].sampling_rate != 16_000:
    test_dataset_cv_14 = test_dataset_cv_14.cast_column(
        'audio',
        Audio(sampling_rate=16_000)
    )

### Вывод результатов

In [32]:
%%time
# Добавление новой колонки с предсказанными текстами
test_dataset_cv_14 = test_dataset_cv_14.map(predict_text)

Map:   0%|          | 0/10 [00:00<?, ? examples/s]

Оригинальный текст: К сожалению, эти предложения не нашли отражения в тексте.
Предсказанный текст: к сожалению эти предложения не нашли отражения в тексте
----------------------------------------------------------------------------------------------------
Оригинальный текст: Толпа озвереет, будет тереться, ощетинит ножки стоглавая вошь.
Предсказанный текст: толпа озвереет будет тереться ощетинит ножки стоглавая вошь
----------------------------------------------------------------------------------------------------
Оригинальный текст: Если не будет возражений, я буду считать, что Ассамблея согласна с этим предложением.
Предсказанный текст: если не будет возражений я буду считать что ассамблея согласна с этим предложением
----------------------------------------------------------------------------------------------------
Оригинальный текст: Да ты зачем собственно приехал?
Предсказанный текст: да ты зачем собственно приехал
----------------------------------------------------------------

In [33]:
test_dataset_cv_14

Dataset({
    features: ['client_id', 'path', 'audio', 'sentence', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment', 'variant', 'predicted_text'],
    num_rows: 10
})

### Тест WER, CER, MER, WIL

In [34]:
# Приведем все к нижнему регистру
original_texts = [ref.lower() for ref in test_dataset_cv_14['sentence']]
transcription = [pred.lower() for pred in test_dataset_cv_14['predicted_text']]

In [35]:
# Получаем метрику
wer_score, cer_score, mer_score, wil_score = compute_metrics(original_texts, transcription)

In [36]:
print(f"Word Error Rate (WER): {wer_score * 100:.2f}%")
print(f"Character Error Rate (CER): {cer_score * 100:.2f}%")
print(f"Match Error Rate (MER): {mer_score * 100:.2f}%")
print(f"Word Information Lost (WIL): {wil_score * 100:.2f}%")

Word Error Rate (WER): 34.15%
Character Error Rate (CER): 12.98%
Match Error Rate (MER): 34.15%
Word Information Lost (WIL): 55.55%


In [37]:
# Создание датафрейма
info = info.append({
    'MODEL': MODEL_ID,
    'DATASET': test_dataset_cv_14.info.dataset_name,
    'ORIGINAL TEXT': original_texts,
    'PREDICTION TEXT': transcription,
    'WER': wer_score,
    'CER': cer_score,
    'MER': mer_score,
    'WIL': wil_score,
    'SAMPLES': SAMPLES
}, ignore_index=True)
display(info)

  info = info.append({


Unnamed: 0,MODEL,DATASET,ORIGINAL TEXT,PREDICTION TEXT,WER,CER,MER,WIL,SAMPLES
0,vosk-model-ru-0.42,common_voice_11_0,"[к сожалению, эти предложения не нашли отражен...",[к сожалению эти предложения не нашли отражени...,0.379747,0.157598,0.379747,0.6001,10
1,vosk-model-ru-0.42,common_voice_12_0,"[к сожалению, эти предложения не нашли отражен...",[к сожалению эти предложения не нашли отражени...,0.369048,0.134935,0.364706,0.576655,10
2,vosk-model-ru-0.42,common_voice_14_0,"[к сожалению, эти предложения не нашли отражен...",[к сожалению эти предложения не нашли отражени...,0.341463,0.129758,0.341463,0.555488,10


In [38]:
info.to_csv('vosk-model-ru-0.42.csv', index=False)