# wav2vec2-mbart50-ru

##### https://huggingface.co/bond005/wav2vec2-mbart50-ru

`Wav2Vec2-mBART-50-Ru` - это модель преобразования последовательности речи в тестовую последовательность, которая может преобразовывать входное аудио с русской речью в текст с пунктуацией, заглавными буквами и так далее.

`Wav2Vec2-mBART-50-Ru` - это модель декодера речевого кодера, которая была инициализирована с помощью `Wav2Vec2-Large-Ru-Golos` в качестве кодера и `mBART-large-50` в качестве декодера. После инициализации модель была точно настроена с использованием обучающей части нескольких аннотированных речевых корпусов:

- the 10 hours crowd subset of SberDevices Golos
- the 100 hours farfield subset of SberDevices Golos
- the Russian subset of Common Voice 6.0
- Sova RuDevices
- 15% part of the training subset of Russian Librispeech

Как и видим, что модель обучена на датасетах сбербанка, поэтому будем проверить метрику WER и CER на других датасетах

## Подключение библиотеки

In [1]:
import os
import warnings

import torch
from datasets import load_dataset, load_from_disk
from datasets.features import Audio
from transformers import SpeechEncoderDecoderModel, Wav2Vec2Processor
import pandas as pd

# Для теста WER - Word Error Rate
# CER - Character Error Rate
# MER - Match Error Rate
# WIL - Word Information Lost
from jiwer import wer, cer, mer, wil

In [2]:
LANG_ID = "ru"
MODEL_ID = "bond005/wav2vec2-mbart50-ru"
PATH_MODEL = '/home/redalexdad/recognition_speech/wav2vec2-mbart50-ru'
# Кол-во текстов для предсказания
SAMPLES = 25

In [3]:
num_processes = max(1, os.cpu_count())

## Использование CUDA

In [4]:
# Проверка доступности GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [5]:
print(f"Using device: {device}")

Using device: cuda


In [6]:
device = 'cpu'
# Устанавливает максимальное количество доступной видеопамяти (например, 75%)
# torch.cuda.set_per_process_memory_fraction(0.75)  
# Включает динамическое выделение памяти на GPU
# torch.cuda.set_per_process_memory_growth(True)  

Не загружаем модель через CUDA, памяти не хватило

`RuntimeError: CUDA out of memory. Tried to allocate 16.00 MiB (GPU 0; 3.63 GiB total capacity; 2.56 GiB already allocated; 7.12 MiB free; 2.58 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF`

In [7]:
# Создадим датафрейм, который будет собирать данные и сохранять
info = pd.DataFrame()

## Загрузка модели

In [8]:
%%time
torch.cuda.empty_cache()

# Проверка наличия модели в локальном пути
if os.path.exists(PATH_MODEL):
    # Загрузка процессора из локального пути
    processor = Wav2Vec2Processor.from_pretrained(PATH_MODEL)
    
    # Загрузка модели из локального пути
    model = SpeechEncoderDecoderModel.from_pretrained(PATH_MODEL).to(device)
    print('Успешно модель загружена')
else:
    # Загрузка процессора из сети и сохранение в локальный путь
    processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
    processor.save_pretrained(PATH_MODEL)
    
    # Загрузка модели из сети и сохранение в локальный путь
    model = SpeechEncoderDecoderModel.from_pretrained(MODEL_ID).to(device)
    model.save_pretrained(PATH_MODEL)
    print(f'Успешно модель скачана и сохранена в пути {PATH_MODEL}')

Успешно модель загружена
CPU times: user 13.4 s, sys: 4.16 s, total: 17.5 s
Wall time: 39.2 s


## Загрузка датасета `common_voice_11_0`

In [9]:
%%time
test_dataset_cv_11 = load_dataset("mozilla-foundation/common_voice_11_0", LANG_ID, split=f"test[:{SAMPLES}]", trust_remote_code=True)

CPU times: user 425 ms, sys: 51.9 ms, total: 477 ms
Wall time: 7.61 s


In [10]:
if test_dataset_cv_11.features['audio'].sampling_rate != 16_000:
    test_dataset_cv_11 = test_dataset_cv_11.cast_column(
        'audio',
        Audio(sampling_rate=16_000)
    )

In [11]:
# Освобождаем памяти 
torch.cuda.empty_cache()

In [12]:
%%time
audio_data = [test_dataset_cv_11[i]['audio']['array'] for i in range(SAMPLES)]

processed = processor(audio_data, sampling_rate=16_000, return_tensors="pt", padding='longest').to(device)

2024-03-10 21:09:40.757521: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-03-10 21:09:40.757644: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-03-10 21:09:40.944454: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-03-10 21:09:41.317060: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


CPU times: user 2.89 s, sys: 566 ms, total: 3.45 s
Wall time: 8.27 s


### Предсказание

In [13]:
%%time
try:
    # Включение вычислений на GPU, если возможно
    with torch.cuda.amp.autocast():
        # Генерация предсказаний на GPU
        predicted_ids = model.generate(**processed)
    
    # Перемещение предсказаний обратно на CPU для декодирования
    predicted_ids = predicted_ids.to("cpu")
except Exception as error:
    with torch.no_grad():
        predicted_ids = model.generate(**processed)

    print('ERROR: ', error)

CPU times: user 12min 11s, sys: 28.7 s, total: 12min 39s
Wall time: 1min 44s


In [14]:
predicted_sentences = processor.batch_decode(
    predicted_ids,
    num_processes=num_processes,
    skip_special_tokens=True
)

### Вывод результатов

In [15]:
with warnings.catch_warnings():
    warnings.simplefilter("ignore")
    for i, predicted_sentence in enumerate(predicted_sentences):
        print("-" * 100)
        print("Reference: ", test_dataset_cv_11[i]["sentence"])
        print("Prediction:", predicted_sentence)

----------------------------------------------------------------------------------------------------
Reference:  К сожалению, эти предложения не нашли отражения в тексте.
Prediction: К сожалению, эти предложения не нашли отражения в тексте.
----------------------------------------------------------------------------------------------------
Reference:  Если не будет возражений, я буду считать, что Ассамблея согласна с этим предложением.
Prediction: Если не будет возражений, я буду считать, что Ассамблея согласна с этим предложением.
----------------------------------------------------------------------------------------------------
Reference:  Новошахтинск — милый город
Prediction: Новошахтинске милый город.
----------------------------------------------------------------------------------------------------
Reference:  Мы особенно рады отметить, что число скрывающихся от правосудия лиц уменьшилось.
Prediction: Мы все равно рады отметить, что число, в том числе в Таиланде, по совещанию Д

### Тест WER, CER, MER, WIL

In [16]:
# Создадим списки с референсами и предсказанными текстами
references = [test_dataset_cv_11[i]["sentence"] for i in range(SAMPLES)]

In [17]:
# Приведем все к нижнему регистру
references = [ref.lower() for ref in references]
predicted_sentences = [pred.lower() for pred in predicted_sentences]

In [18]:
# Рассчитаем WER
wer_score = wer(references, predicted_sentences)

In [19]:
print(f"Word Error Rate (WER): {wer_score * 100:.2f}%")

Word Error Rate (WER): 31.09%


In [20]:
# и CER
cer_score = cer(references, predicted_sentences)

In [21]:
print(f"Character Error Rate (CER): {cer_score * 100:.2f}%")

Character Error Rate (CER): 11.75%


In [22]:
# MER
mer_score = mer(references, predicted_sentences)

In [23]:
print(f"Match Error Rate (MER): {mer_score * 100:.2f}%")

Match Error Rate (MER): 28.99%


In [24]:
# WIL
wil_score = wil(references, predicted_sentences)

In [25]:
print(f"Word Information Lost (WIL): {wil_score * 100:.2f}%")

Word Information Lost (WIL): 44.85%


In [26]:
# Создание датафрейма
info = info.append({
    'MODEL': MODEL_ID,
    'DATASET': test_dataset_cv_11.info.dataset_name,
    'ORIGINAL TEXT': references,
    'PREDICTION TEXT': predicted_sentences,
    'WER': wer_score,
    'CER': cer_score,
    'MER': mer_score,
    'WIL': wil_score,
    'SAMPLES': SAMPLES
}, ignore_index=True)
display(info)

  info = info.append({


Unnamed: 0,MODEL,DATASET,ORIGINAL TEXT,PREDICTION TEXT,WER,CER,MER,WIL,SAMPLES
0,bond005/wav2vec2-mbart50-ru,common_voice_11_0,"[к сожалению, эти предложения не нашли отражен...","[к сожалению, эти предложения не нашли отражен...",0.310881,0.11751,0.289855,0.448455,25


## Загрузка датасета `common_voice_12_0`

In [27]:
%%time
test_dataset_cv_12 = load_dataset("mozilla-foundation/common_voice_12_0", LANG_ID, split=f"test[:{SAMPLES}]", trust_remote_code=True)

CPU times: user 344 ms, sys: 5.3 ms, total: 349 ms
Wall time: 15.2 s


In [28]:
if test_dataset_cv_12.features['audio'].sampling_rate != 16_000:
    test_dataset_cv_12 = test_dataset_cv_12.cast_column(
        'audio',
        Audio(sampling_rate=16_000)
    )

In [29]:
# Освобождаем памяти 
torch.cuda.empty_cache()

In [30]:
%%time
audio_data = [test_dataset_cv_12[i]['audio']['array'] for i in range(SAMPLES)]

processed = processor(audio_data, sampling_rate=16_000, return_tensors="pt", padding='longest').to(device)

CPU times: user 160 ms, sys: 14 µs, total: 160 ms
Wall time: 153 ms


### Предсказание

In [31]:
%%time
try:
    # Включение вычислений на GPU, если возможно
    with torch.cuda.amp.autocast():
        # Генерация предсказаний на GPU
        predicted_ids = model.generate(**processed)
    
    # Перемещение предсказаний обратно на CPU для декодирования
    predicted_ids = predicted_ids.to("cpu")
except Exception as error:
    with torch.no_grad():
        predicted_ids = model.generate(**processed)

    print('ERROR: ', error)

CPU times: user 12min 34s, sys: 8.78 s, total: 12min 43s
Wall time: 1min 43s


In [32]:
predicted_sentences = processor.batch_decode(
    predicted_ids,
    num_processes=num_processes,
    skip_special_tokens=True
)

### Вывод результатов

In [33]:
with warnings.catch_warnings():
    warnings.simplefilter("ignore")
    for i, predicted_sentence in enumerate(predicted_sentences):
        print("-" * 100)
        print("Reference: ", test_dataset_cv_12[i]["sentence"])
        print("Prediction:", predicted_sentence)

----------------------------------------------------------------------------------------------------
Reference:  К сожалению, эти предложения не нашли отражения в тексте.
Prediction: К сожалению, эти предложения не нашли отражения в тексте.
----------------------------------------------------------------------------------------------------
Reference:  Толпа озвереет, будет тереться, ощетинит ножки стоглавая вошь.
Prediction: Толпа зверей будет тереться, Ощутите немножко, старая вождь.
----------------------------------------------------------------------------------------------------
Reference:  А жизнь ее была не весела.
Prediction: А жизнь ее была не весела.
----------------------------------------------------------------------------------------------------
Reference:  Если не будет возражений, я буду считать, что Ассамблея согласна с этим предложением.
Prediction: Если не будет возражений, я буду считать, что Ассамблея согласна с этим предложением.
----------------------------------

### Тест WER, CER, MER, WIL

In [34]:
# Создадим списки с референсами и предсказанными текстами
references = [test_dataset_cv_12[i]["sentence"] for i in range(SAMPLES)]

In [35]:
# Приведем все к нижнему регистру
references = [ref.lower() for ref in references]
predicted_sentences = [pred.lower() for pred in predicted_sentences]

In [36]:
# Рассчитаем WER
wer_score = wer(references, predicted_sentences)

In [37]:
print(f"Word Error Rate (WER): {wer_score * 100:.2f}%")

Word Error Rate (WER): 30.15%


In [38]:
# и CER
cer_score = cer(references, predicted_sentences)

In [39]:
print(f"Character Error Rate (CER): {cer_score * 100:.2f}%")

Character Error Rate (CER): 12.40%


In [40]:
# MER
mer_score = mer(references, predicted_sentences)

In [41]:
print(f"Match Error Rate (MER): {mer_score * 100:.2f}%")

Match Error Rate (MER): 28.57%


In [42]:
# WIL
wil_score = wil(references, predicted_sentences)

In [43]:
print(f"Word Information Lost (WIL): {wil_score * 100:.2f}%")

Word Information Lost (WIL): 45.38%


In [44]:
# Создание датафрейма
info = info.append({
    'MODEL': MODEL_ID,
    'DATASET': test_dataset_cv_12.info.dataset_name,
    'ORIGINAL TEXT': references,
    'PREDICTION TEXT': predicted_sentences,
    'WER': wer_score,
    'CER': cer_score,
    'MER': mer_score,
    'WIL': wil_score,
    'SAMPLES': SAMPLES
}, ignore_index=True)
display(info)

  info = info.append({


Unnamed: 0,MODEL,DATASET,ORIGINAL TEXT,PREDICTION TEXT,WER,CER,MER,WIL,SAMPLES
0,bond005/wav2vec2-mbart50-ru,common_voice_11_0,"[к сожалению, эти предложения не нашли отражен...","[к сожалению, эти предложения не нашли отражен...",0.310881,0.11751,0.289855,0.448455,25
1,bond005/wav2vec2-mbart50-ru,common_voice_12_0,"[к сожалению, эти предложения не нашли отражен...","[к сожалению, эти предложения не нашли отражен...",0.301508,0.123961,0.285714,0.453791,25


## Загрузка датасета `common_voice_14_0`

In [45]:
%%time
test_dataset_cv_14 = load_dataset("mozilla-foundation/common_voice_14_0", LANG_ID, split=f"test[:{SAMPLES}]", trust_remote_code=True)

CPU times: user 318 ms, sys: 20.3 ms, total: 338 ms
Wall time: 12.1 s


In [46]:
if test_dataset_cv_14.features['audio'].sampling_rate != 16_000:
    test_dataset_cv_14 = test_dataset_cv_14.cast_column(
        'audio',
        Audio(sampling_rate=16_000)
    )

In [47]:
# Освобождаем памяти 
torch.cuda.empty_cache()

In [48]:
%%time
audio_data = [test_dataset_cv_14[i]['audio']['array'] for i in range(SAMPLES)]

processed = processor(audio_data, sampling_rate=16_000, return_tensors="pt", padding='longest').to(device)

CPU times: user 152 ms, sys: 11.9 ms, total: 163 ms
Wall time: 160 ms


### Предсказание

In [49]:
%%time
try:
    # Включение вычислений на GPU, если возможно
    with torch.cuda.amp.autocast():
        # Генерация предсказаний на GPU
        predicted_ids = model.generate(**processed)
    
    # Перемещение предсказаний обратно на CPU для декодирования
    predicted_ids = predicted_ids.to("cpu")
except Exception as error:
    with torch.no_grad():
        predicted_ids = model.generate(**processed)

    print('ERROR: ', error)

CPU times: user 12min 52s, sys: 9.57 s, total: 13min 2s
Wall time: 1min 44s


In [50]:
predicted_sentences = processor.batch_decode(
    predicted_ids,
    num_processes=num_processes,
    skip_special_tokens=True
)

### Вывод результатов

In [51]:
with warnings.catch_warnings():
    warnings.simplefilter("ignore")
    for i, predicted_sentence in enumerate(predicted_sentences):
        print("-" * 100)
        print("Reference: ", test_dataset_cv_14[i]["sentence"])
        print("Prediction:", predicted_sentence)

----------------------------------------------------------------------------------------------------
Reference:  К сожалению, эти предложения не нашли отражения в тексте.
Prediction: К сожалению, эти предложения не нашли отражения в тексте.
----------------------------------------------------------------------------------------------------
Reference:  Толпа озвереет, будет тереться, ощетинит ножки стоглавая вошь.
Prediction: Толпа зверей будет тереться, Ощутите немножко, старая вождь.
----------------------------------------------------------------------------------------------------
Reference:  Если не будет возражений, я буду считать, что Ассамблея согласна с этим предложением.
Prediction: Если не будет возражений, я буду считать, что Ассамблея согласна с этим предложением.
----------------------------------------------------------------------------------------------------
Reference:  Да ты зачем собственно приехал?
Prediction: Да ты, зачем собственно приехал?
-----------------------

### Тест WER, CER, MER, WIL

In [52]:
# Создадим списки с референсами и предсказанными текстами
references = [test_dataset_cv_14[i]["sentence"] for i in range(SAMPLES)]

In [53]:
# Приведем все к нижнему регистру
references = [ref.lower() for ref in references]
predicted_sentences = [pred.lower() for pred in predicted_sentences]

In [54]:
# Рассчитаем WER
wer_score = wer(references, predicted_sentences)

In [55]:
print(f"Word Error Rate (WER): {wer_score * 100:.2f}%")

Word Error Rate (WER): 38.29%


In [56]:
# и CER
cer_score = cer(references, predicted_sentences)

In [57]:
print(f"Character Error Rate (CER): {cer_score * 100:.2f}%")

Character Error Rate (CER): 15.53%


In [58]:
# MER
mer_score = mer(references, predicted_sentences)

In [59]:
print(f"Match Error Rate (MER): {mer_score * 100:.2f}%")

Match Error Rate (MER): 35.64%


In [60]:
# WIL
wil_score = wil(references, predicted_sentences)

In [61]:
print(f"Word Information Lost (WIL): {wil_score * 100:.2f}%")

Word Information Lost (WIL): 55.02%


In [62]:
# Создание датафрейма
info = info.append({
    'MODEL': MODEL_ID,
    'DATASET': test_dataset_cv_14.info.dataset_name,
    'ORIGINAL TEXT': references,
    'PREDICTION TEXT': predicted_sentences,
    'WER': wer_score,
    'CER': cer_score,
    'MER': mer_score,
    'WIL': wil_score,
    'SAMPLES': SAMPLES
}, ignore_index=True)
display(info)

  info = info.append({


Unnamed: 0,MODEL,DATASET,ORIGINAL TEXT,PREDICTION TEXT,WER,CER,MER,WIL,SAMPLES
0,bond005/wav2vec2-mbart50-ru,common_voice_11_0,"[к сожалению, эти предложения не нашли отражен...","[к сожалению, эти предложения не нашли отражен...",0.310881,0.11751,0.289855,0.448455,25
1,bond005/wav2vec2-mbart50-ru,common_voice_12_0,"[к сожалению, эти предложения не нашли отражен...","[к сожалению, эти предложения не нашли отражен...",0.301508,0.123961,0.285714,0.453791,25
2,bond005/wav2vec2-mbart50-ru,common_voice_14_0,"[к сожалению, эти предложения не нашли отражен...","[к сожалению, эти предложения не нашли отражен...",0.382857,0.155324,0.356383,0.5502,25


In [63]:
info.to_csv('recognition_speech/wav2vec2-mbart50-ru.csv', index=False)