Ознакомьтесь с документацией DeepSpeech. Подгрузите звуковые дорожки (4 шт) на англ. языке (ссылки на скачивание представлены кодом ниже). Измените значение sample rate этих дорожек на 16000 Hz. В измененных аудиофайлах выполните распознавание речи моделью DeepSpeech и посчитайте WER.

**Документация DeepSpeech**

https://deepspeech.readthedocs.io/en/v0.8.2/

Загружаем данные

In [None]:
# Загрузка датасетов из облака google
import gdown

# Звуковая дорожка 1
url = 'https://storage.yandexcloud.net/aiueducation/Content/advanced/l15/sample1.wav'
gdown.download(url, None, quiet=False)

# Звуковая дорожка 2
url = 'https://storage.yandexcloud.net/aiueducation/Content/advanced/l15/sample2.wav'
gdown.download(url, None, quiet=False)

# Звуковая дорожка 3
url = 'https://storage.yandexcloud.net/aiueducation/Content/advanced/l15/sample3.wav'
gdown.download(url, None, quiet=False)

# Звуковая дорожка 4
url = 'https://storage.yandexcloud.net/aiueducation/Content/advanced/l15/sample4.wav'
gdown.download(url, None, quiet=False)

In [None]:
%%capture

# Устанавливаем DeepSpeech
!pip install deepspeech

# Модуль метрики качества в распознавании речи
!pip install jiwer 

# Установка librosa 0.8.0
!pip install librosa==0.8.0

In [None]:
# Скачиваем обученную модель DeepSpeech
!curl -LO https://github.com/mozilla/DeepSpeech/releases/download/v0.8.1/deepspeech-0.8.1-models.pbmm
!curl -LO https://github.com/mozilla/DeepSpeech/releases/download/v0.8.1/deepspeech-0.8.1-models.scorer

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   634  100   634    0     0   5239      0 --:--:-- --:--:-- --:--:--  5239
100  180M  100  180M    0     0  64.7M      0  0:00:02  0:00:02 --:--:-- 68.7M
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   636  100   636    0     0   4892      0 --:--:-- --:--:-- --:--:--  4892
100  909M  100  909M    0     0  91.2M      0  0:00:09  0:00:09 --:--:-- 97.6M


In [None]:
# librosa для обработки аудио файлов
import librosa 

# Audio для вывода аудио в Colab
from IPython.display import Audio 

# Для проигрывания аудио
import IPython.display as ipd 

# Библиотека для чтения аудиофайлов
from scipy.io import wavfile

# Функция для выполнения интерполяции
from scipy import interpolate

# Библиотека для работы с массивами
import numpy as np

# Модуль метрики качества в распознавании речи
from jiwer import wer 

# Библиотека для записи аудиофайлов
import soundfile as sf

In [None]:
def NewSampleRate(path, new_file, new_sr = 16000):
  '''
  Функция преобразования исходного аудио-фрагмента  в МОНО с указанной частотой (16kHz по умолчанию)

  Args:
    path   - путь к аудиофайлу
    new_sr - новое значение частоты дискретизации

  Returns:
    
  '''
  
  # Загружаем данные и меняем sr
  audio, sr = librosa.load(path, sr=new_sr) 
  
  # Записываем новый файл
  sf.write(new_file, audio, sr)             
  
  # Выводим метку о записи
  print('Файл '+new_file+' сохранен') 

Возьмём первый аудиофайл 'sample1.wav' и выведем его значения sr и audio. При загрузке файла укажем параметр sr=None, чтобы частота дискретизации была та, с которой записан этот аудиофайл. Прослушаем эту запись.

In [None]:
path = 'sample1.wav'                        # Задаем путь к тестовому файлу
audio, sr = librosa.load(path, sr=None)     # Загружаем аудиофайл
print('Частота дискретизации:', sr)         # Выводим частоту дискретизации
print('Количество отчетов:   ', len(audio)) # Выводим количество отчетов
ipd.Audio(path)                             # Выводим аудио

Частота дискретизации: 44100
Количество отчетов:    150201


Поменяем частоту дискретизации аудиофайла 'sample1.wav' с 44100 на 16000. Имя нового файла будет 'sample1_16K.wav'. Выведем значения sr и audio нового файла и убедимся, что частота дискретизации изменилась. Прослушаем запись.

In [None]:
# Меняем значение sr файла 'sample1.wav' и создаем новый 'sample1_16K.wav'

NewSampleRate('sample1.wav', 'sample1_16K.wav', new_sr = 16000)

In [None]:
path = 'sample1_16K.wav'                    # Задаем путь к новому файлу
audio, sr = librosa.load(path, sr=None)     # Загружаем аудиофайл 
print('Частота дискретизации:', sr)         # Выводим частоту дискретизации  
print('Количество отчетов:   ', len(audio)) # Выводим количество отчетов
ipd.Audio('sample1_16K.wav')                # Выводим аудио                

Файл sample1_16K.wav сохранен
Частота дискретизации: 16000
Количество отчетов:    54495


Частота дискретизации нового файла изменилась. Прослушав аудио, можно заметить некоторые различия звука.

Изменим частоту дискретизации всех остальных записей.

In [None]:
NewSampleRate('sample2.wav', 'sample2_16K.wav', new_sr = 16000)
NewSampleRate('sample3.wav', 'sample3_16K.wav', new_sr = 16000)
NewSampleRate('sample4.wav', 'sample4_16K.wav', new_sr = 16000)

Файл sample2_16K.wav сохранен
Файл sample3_16K.wav сохранен
Файл sample4_16K.wav сохранен


Теперь выполним распознавание речи нашего нового файла 'sample1_16K.wav' при помощи deepspeech. Дело в том, что deepspeech работает только с теми файлами, у которых частота дискретизации 16000, поэтому мы её и поменяли.

In [None]:
!deepspeech --model deepspeech-0.8.1-models.pbmm --scorer deepspeech-0.8.1-models.scorer --audio sample1_16K.wav

Loading model from file deepspeech-0.8.1-models.pbmm
TensorFlow: v2.3.0-6-g23ad988
DeepSpeech: v0.9.3-0-gf2e9c85
2021-11-12 11:55:42.343235: I tensorflow/core/platform/cpu_feature_guard.cc:142] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN)to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
Loaded model in 0.00975s.
Loading scorer from files deepspeech-0.8.1-models.scorer
Loaded scorer in 0.000175s.
Running inference.
how are you how are you to day
Inference took 2.153s for 3.406s audio file.


Результат распознавания записан в предпоследней строчке 'how are you how are you to day'.

Напишем функцию распознавания речи, которой на вход будем подавать аудио и оригинальный текст из этого аудио, а на выходе получим значение WER.

In [None]:
def get_WER(path, original):
  
  '''
  Функция для определения оценки качества WER

  Args:
    path     - путь к аудиофайлу
    original - текст из этого аудиофайла

  Returns:
    
  '''
  # Результат распознавания запишем в переменную res
  res = !deepspeech --model deepspeech-0.8.1-models.pbmm --scorer deepspeech-0.8.1-models.scorer --audio {path}
  
  # Из полученного списка параметров возьмем только распознанный текст
  res=res[-2] 

  # Выводим оригинальный текст
  print('Оригинал:               ', original)       
  
  # Выводим распознанный текст
  print('Результат распознавания:', res)   
           
  # Считаем метрику качества
  print('WER:', wer(original.lower(), res.lower())) 
  
  return ipd.Audio(path)

In [None]:
get_WER('sample1_16K.wav','how are you how are you today')

Оригинал:                how are you how are you today
Результат распознавания: how are you how are you to day
WER: 0.2857142857142857


In [None]:
get_WER('sample2_16K.wav','hey we need a football a game to just put in and you can play it')

Оригинал:                hey we need a football a game to just put in and you can play it
Результат распознавания: her one the football game to the egyptian hand i complain
WER: 0.8125


In [None]:
get_WER('sample3_16K.wav','and my boy was thirty and my sister is twenty seven')

Оригинал:                and my boy was thirty and my sister is twenty seven
Результат распознавания: and marius thirty sisters twenty seven
WER: 0.6363636363636364


In [None]:
get_WER('sample4_16K.wav','fellow americans and people of the world thank you')

Оригинал:                fellow americans and people of the world thank you
Результат распознавания: fellow americans and people of the world thank you
WER: 0.0
