# wav2vec2-xls-r-1b-russian

##### https://huggingface.co/jonatasgrosman/wav2vec2-xls-r-1b-russian

Точно настроил `facebook/wav2vec2-xls-r1b` на русском языке, используя разделители `train` и `validation` в `Common Voice 8.0`, `Golos` и многоязычном `TEDx`. 

**При использовании этой модели убедитесь, что при вводе речи используется частота дискретизации 16 кГц.**

Эта модель была точно настроена с помощью инструмента `HuggingSound` и благодаря графическому процессору, щедро предоставленному `OVHcloud` :)

## Подключение библиотеки

In [1]:
import os
import warnings
import pandas as pd
import librosa

import torch
import torchaudio

from datasets import load_dataset, load_from_disk
from datasets.features import Audio

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

from huggingsound import SpeechRecognitionModel

# Для теста WER - Word Error Rate
# CER - Character Error Rate
# MER - Match Error Rate
# WIL - Word Information Lost
from jiwer import wer, cer, mer, wil

2024-03-11 12:26:41.683289: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-03-11 12:26:41.683322: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-03-11 12:26:41.686894: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-03-11 12:26:41.704283: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


## Использование CUDA

In [2]:
# Check if CUDA is available
if torch.cuda.is_available():
    # Get the device name
    device = torch.cuda.current_device()
    print(f"Code is connected to CUDA. Using GPU: {torch.cuda.get_device_name(device)}")
else:
    print("CUDA is not available. Running on CPU.")

CUDA is not available. Running on CPU.


  return torch._C._cuda_getDeviceCount() > 0


In [3]:
# Все равно у меня не хватит памяти для выполнения(
device = 'cpu'

Не загружаем модель через CUDA, памяти не хватило

`RuntimeError: CUDA out of memory. Tried to allocate 16.00 MiB (GPU 0; 3.63 GiB total capacity; 2.56 GiB already allocated; 7.12 MiB free; 2.58 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF`

In [4]:
# Создадим датафрейм, который будет собирать данные и сохранять
info = pd.DataFrame()

## Функции

### Тест метрики WER, CER, MER, WIL

In [5]:
# Функция для вычисления WER, CER, MER, WIL
def compute_metrics(original_texts, transcription):
    wer_score = wer(original_texts, transcription)
    cer_score = cer(original_texts, transcription)
    mer_score = mer(original_texts, transcription)
    wil_score = wil(original_texts, transcription)
    
    return wer_score, cer_score, mer_score, wil_score

### Чтение аудиофайлов в виде массивов

In [6]:
# Предварительная обработка наборов данных.
# Нам нужно прочитать аудиофайлы в виде массивов
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"]
    return batch

## Загрузка модели

In [7]:
LANG_ID = "ru"
MODEL_ID = 'jonatasgrosman/wav2vec2-xls-r-1b-russian'
PATH_MODEL = '/home/redalexdad/recognition_speech/wav2vec2-xls-r-1b-russian'
# Кол-во текстов для предсказания
# ВНИМАНИЕ, НЕ СТАВЬ БОЛЬШЕ 10, ОС ЗАВИСНЕТ И ЯДРО УПАДЕТ!
SAMPLES = 10

In [8]:
# Проверка наличия модели в локальном пути
if os.path.exists(PATH_MODEL):
    processor = Wav2Vec2Processor.from_pretrained(PATH_MODEL)
    model = Wav2Vec2ForCTC.from_pretrained(PATH_MODEL).to(device)
    print('Успешно модель загружена')
else:
    # Загрузка процессора из сети
    processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
    processor.save_pretrained(PATH_MODEL)
    
    # Загрузка модели из сети
    model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID).to(device)
    model.save_pretrained(PATH_MODEL)
    
    print(f'Успешно процессор и модель скачаны и сохранены в пути {PATH_MODEL}')

Успешно модель загружена


## Загрузка датасета `common_voice_11_0`

In [9]:
%%time
test_dataset_cv_11 = load_dataset("mozilla-foundation/common_voice_11_0", LANG_ID, split=f"test[:{SAMPLES}]", trust_remote_code=True)

CPU times: user 363 ms, sys: 14.6 ms, total: 378 ms
Wall time: 3.67 s


In [10]:
if test_dataset_cv_11.features['audio'].sampling_rate != 16_000:
    test_dataset_cv_11 = test_dataset_cv_11.cast_column(
        'audio',
        Audio(sampling_rate=16_000)
    )

### Предсказание

In [11]:
test_dataset_cv_11 = test_dataset_cv_11.map(speech_file_to_array_fn)

In [12]:
inputs = processor(test_dataset_cv_11["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

In [13]:
%%time
with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

CPU times: user 7min 51s, sys: 22 s, total: 8min 13s
Wall time: 1min 8s


In [14]:
# Оригинальные тексты из датасета
original_texts = [test_dataset_cv_11[i]['sentence'] for i in range(SAMPLES)]

In [15]:
# Транскрибация
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

### Вывод результатов

In [16]:
# Вывод оригинальных и предсказанных текстов
print('-'*100)
for i, (original_text, predicted_text) in enumerate(zip(original_texts, transcription)):
    print(f"Sample {i + 1} \n- Канонический текст: {original_text}")
    print(f"- Предсказанный текст: {predicted_text}")
    print("-" * 100)

----------------------------------------------------------------------------------------------------
Sample 1 
- Канонический текст: К сожалению, эти предложения не нашли отражения в тексте.
- Предсказанный текст: к сожалению эти предложения не носли отражения в тексте
----------------------------------------------------------------------------------------------------
Sample 2 
- Канонический текст: Если не будет возражений, я буду считать, что Ассамблея согласна с этим предложением.
- Предсказанный текст: если не будет возражений я буду считать что ассамблея согласна с этим предложением
----------------------------------------------------------------------------------------------------
Sample 3 
- Канонический текст: Новошахтинск — милый город
- Предсказанный текст: новошафтинск милый город
----------------------------------------------------------------------------------------------------
Sample 4 
- Канонический текст: Мы особенно рады отметить, что число скрывающихся от правосудия 

### Тест WER, CER, MER, WIL

In [17]:
# Приведем все к нижнему регистру
original_texts = [ref.lower() for ref in original_texts]
transcription = [pred.lower() for pred in transcription]

In [18]:
# Получаем метрику
wer_score, cer_score, mer_score, wil_score = compute_metrics(original_texts, transcription)

In [19]:
print(f"Word Error Rate (WER): {wer_score * 100:.2f}%")
print(f"Character Error Rate (CER): {cer_score * 100:.2f}%")
print(f"Match Error Rate (MER): {mer_score * 100:.2f}%")
print(f"Word Information Lost (WIL): {wil_score * 100:.2f}%")

Word Error Rate (WER): 36.71%
Character Error Rate (CER): 9.38%
Match Error Rate (MER): 36.71%
Word Information Lost (WIL): 58.90%


In [20]:
# Создание датафрейма
info = info.append({
    'MODEL': MODEL_ID,
    'DATASET': test_dataset_cv_11.info.dataset_name,
    'ORIGINAL TEXT': original_texts,
    'PREDICTION TEXT': transcription,
    'WER': wer_score,
    'CER': cer_score,
    'MER': mer_score,
    'WIL': wil_score,
    'SAMPLES': SAMPLES
}, ignore_index=True)
display(info)

  info = info.append({


Unnamed: 0,MODEL,DATASET,ORIGINAL TEXT,PREDICTION TEXT,WER,CER,MER,WIL,SAMPLES
0,jonatasgrosman/wav2vec2-xls-r-1b-russian,common_voice_11_0,"[к сожалению, эти предложения не нашли отражен...",[к сожалению эти предложения не носли отражени...,0.367089,0.093809,0.367089,0.589019,10


## Загрузка датасета `common_voice_12_0`

In [21]:
%%time
test_dataset_cv_12 = load_dataset("mozilla-foundation/common_voice_12_0", LANG_ID, split=f"test[:{SAMPLES}]", trust_remote_code=True)

CPU times: user 315 ms, sys: 16.2 ms, total: 331 ms
Wall time: 3.76 s


In [22]:
if test_dataset_cv_12.features['audio'].sampling_rate != 16_000:
    test_dataset_cv_12 = test_dataset_cv_12.cast_column(
        'audio',
        Audio(sampling_rate=16_000)
    )

### Предсказание

In [23]:
test_dataset_cv_12 = test_dataset_cv_12.map(speech_file_to_array_fn)

Map:   0%|          | 0/10 [00:00<?, ? examples/s]

In [24]:
inputs = processor(test_dataset_cv_12["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

In [25]:
%%time
with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

CPU times: user 8min 10s, sys: 18.7 s, total: 8min 28s
Wall time: 1min 9s


In [26]:
# Оригинальные тексты из датасета
original_texts = [test_dataset_cv_12[i]['sentence'] for i in range(SAMPLES)]

In [27]:
# Транскрибация
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

### Вывод результатов

In [28]:
# Вывод оригинальных и предсказанных текстов
print('-'*100)
for i, (original_text, predicted_text) in enumerate(zip(original_texts, transcription)):
    print(f"Sample {i + 1} \n- Канонический текст: {original_text}")
    print(f"- Предсказанный текст: {predicted_text}")
    print("-" * 100)

----------------------------------------------------------------------------------------------------
Sample 1 
- Канонический текст: К сожалению, эти предложения не нашли отражения в тексте.
- Предсказанный текст: к сожалению эти предложения не носли отражения в тексте
----------------------------------------------------------------------------------------------------
Sample 2 
- Канонический текст: Толпа озвереет, будет тереться, ощетинит ножки стоглавая вошь.
- Предсказанный текст: толпа звереет будет тереться ощути нет ножки с тоглавая ложь
----------------------------------------------------------------------------------------------------
Sample 3 
- Канонический текст: А жизнь ее была не весела.
- Предсказанный текст: а жизни ее была не весела
----------------------------------------------------------------------------------------------------
Sample 4 
- Канонический текст: Если не будет возражений, я буду считать, что Ассамблея согласна с этим предложением.
- Предсказанный текст:

### Тест WER, CER, MER, WIL

In [29]:
# Приведем все к нижнему регистру
original_texts = [ref.lower() for ref in original_texts]
transcription = [pred.lower() for pred in transcription]

In [30]:
# Получаем метрику
wer_score, cer_score, mer_score, wil_score = compute_metrics(original_texts, transcription)

In [31]:
print(f"Word Error Rate (WER): {wer_score * 100:.2f}%")
print(f"Character Error Rate (CER): {cer_score * 100:.2f}%")
print(f"Match Error Rate (MER): {mer_score * 100:.2f}%")
print(f"Word Information Lost (WIL): {wil_score * 100:.2f}%")

Word Error Rate (WER): 39.29%
Character Error Rate (CER): 9.98%
Match Error Rate (MER): 38.37%
Word Information Lost (WIL): 60.66%


In [32]:
# Создание датафрейма
info = info.append({
    'MODEL': MODEL_ID,
    'DATASET': test_dataset_cv_12.info.dataset_name,
    'ORIGINAL TEXT': original_texts,
    'PREDICTION TEXT': transcription,
    'WER': wer_score,
    'CER': cer_score,
    'MER': mer_score,
    'WIL': wil_score,
    'SAMPLES': SAMPLES
}, ignore_index=True)
display(info)

  info = info.append({


Unnamed: 0,MODEL,DATASET,ORIGINAL TEXT,PREDICTION TEXT,WER,CER,MER,WIL,SAMPLES
0,jonatasgrosman/wav2vec2-xls-r-1b-russian,common_voice_11_0,"[к сожалению, эти предложения не нашли отражен...",[к сожалению эти предложения не носли отражени...,0.367089,0.093809,0.367089,0.589019,10
1,jonatasgrosman/wav2vec2-xls-r-1b-russian,common_voice_12_0,"[к сожалению, эти предложения не нашли отражен...",[к сожалению эти предложения не носли отражени...,0.392857,0.099815,0.383721,0.606583,10


## Загрузка датасета `common_voice_14_0`

In [33]:
%%time
test_dataset_cv_14 = load_dataset("mozilla-foundation/common_voice_14_0", LANG_ID, split=f"test[:{SAMPLES}]", trust_remote_code=True)

CPU times: user 323 ms, sys: 23.9 ms, total: 346 ms
Wall time: 3.85 s


In [34]:
if test_dataset_cv_14.features['audio'].sampling_rate != 16_000:
    test_dataset_cv_14 = test_dataset_cv_14.cast_column(
        'audio',
        Audio(sampling_rate=16_000)
    )

### Предсказание

In [35]:
test_dataset_cv_14 = test_dataset_cv_14.map(speech_file_to_array_fn)

Map:   0%|          | 0/10 [00:00<?, ? examples/s]

In [36]:
inputs = processor(test_dataset_cv_14["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

In [37]:
%%time
with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

CPU times: user 8min 9s, sys: 21 s, total: 8min 30s
Wall time: 1min 9s


In [38]:
# Оригинальные тексты из датасета
original_texts = [test_dataset_cv_14[i]['sentence'] for i in range(SAMPLES)]

In [39]:
# Транскрибация
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

### Вывод результатов

In [40]:
# Вывод оригинальных и предсказанных текстов
print('-'*100)
for i, (original_text, predicted_text) in enumerate(zip(original_texts, transcription)):
    print(f"Sample {i + 1} \n- Канонический текст: {original_text}")
    print(f"- Предсказанный текст: {predicted_text}")
    print("-" * 100)

----------------------------------------------------------------------------------------------------
Sample 1 
- Канонический текст: К сожалению, эти предложения не нашли отражения в тексте.
- Предсказанный текст: к сожалению эти предложения не носли отражения в тексте
----------------------------------------------------------------------------------------------------
Sample 2 
- Канонический текст: Толпа озвереет, будет тереться, ощетинит ножки стоглавая вошь.
- Предсказанный текст: толпа звереет будет тереться ощути нет ножки с тоглавая ложь
----------------------------------------------------------------------------------------------------
Sample 3 
- Канонический текст: Если не будет возражений, я буду считать, что Ассамблея согласна с этим предложением.
- Предсказанный текст: если не будет возражений я буду считать что ассамблея согласна с этим предложением
----------------------------------------------------------------------------------------------------
Sample 4 
- Канонический

### Тест WER, CER, MER, WIL

In [41]:
# Приведем все к нижнему регистру
original_texts = [ref.lower() for ref in original_texts]
transcription = [pred.lower() for pred in transcription]

In [42]:
# Получаем метрику
wer_score, cer_score, mer_score, wil_score = compute_metrics(original_texts, transcription)

In [43]:
print(f"Word Error Rate (WER): {wer_score * 100:.2f}%")
print(f"Character Error Rate (CER): {cer_score * 100:.2f}%")
print(f"Match Error Rate (MER): {mer_score * 100:.2f}%")
print(f"Word Information Lost (WIL): {wil_score * 100:.2f}%")

Word Error Rate (WER): 39.02%
Character Error Rate (CER): 9.34%
Match Error Rate (MER): 38.10%
Word Information Lost (WIL): 60.27%


In [44]:
# Создание датафрейма
info = info.append({
    'MODEL': MODEL_ID,
    'DATASET': test_dataset_cv_14.info.dataset_name,
    'ORIGINAL TEXT': original_texts,
    'PREDICTION TEXT': transcription,
    'WER': wer_score,
    'CER': cer_score,
    'MER': mer_score,
    'WIL': wil_score,
    'SAMPLES': SAMPLES
}, ignore_index=True)
display(info)

  info = info.append({


Unnamed: 0,MODEL,DATASET,ORIGINAL TEXT,PREDICTION TEXT,WER,CER,MER,WIL,SAMPLES
0,jonatasgrosman/wav2vec2-xls-r-1b-russian,common_voice_11_0,"[к сожалению, эти предложения не нашли отражен...",[к сожалению эти предложения не носли отражени...,0.367089,0.093809,0.367089,0.589019,10
1,jonatasgrosman/wav2vec2-xls-r-1b-russian,common_voice_12_0,"[к сожалению, эти предложения не нашли отражен...",[к сожалению эти предложения не носли отражени...,0.392857,0.099815,0.383721,0.606583,10
2,jonatasgrosman/wav2vec2-xls-r-1b-russian,common_voice_14_0,"[к сожалению, эти предложения не нашли отражен...",[к сожалению эти предложения не носли отражени...,0.390244,0.093426,0.380952,0.602703,10


In [45]:
info.to_csv('wav2vec2-xls-r-1b-russian.csv', index=False)