Название: recognize_speech.ipynb  

Автор: hwpy  
Дата: 2022 Март  
Описание: Пакет функций для транскрипции wav  
Примечания:  
* Аудио для демонстрации взяты с открытого источника Russian Open Speech To Text (STT/ASR) Dataset  
        https://www.kaggle.com/datasets/tapakah68/audio-dataset?resource=download&utm_source=pocket_mylist  
* Перед началом работы необходимо клонировать git clone https://github.com/alphacep/vosk-api  
        или загрузить полную русскоязычную модель https://alphacephei.com/vosk/models  
        и распаковать в каталог model

# Функции для взаимодействия с моделями

**Импортируем модули и библиотеки**

In [None]:
from typing import List
# для работы с данными
import pandas as pd
# для работы с файлами
import os
import wave
# для транскрипции
from vosk import Model, KaldiRecognizer
import speech_recognition as speech_r
import json
# остальные
from tqdm import tqdm
# для работы с архивами
from packages.helper import recursive_unpack, single_unpack

**Определение функций и переменных**

In [None]:
# путь к каталогу audio
CUR_DIR = os.getcwd()
PATH_TO_AUDIO = os.path.join(CUR_DIR, "audio")
# частота дискретизации
SAMPLE_RATE = 16000


def create_list_of_wavs(path: str = PATH_TO_AUDIO) -> List[str]:
    """Создание списка путей до wav файлов, лежащих в любом уровне внутри PATH_TO_AUDIO

    Аргументы:
        - path (str) - путь до каталога wav (по умолчанию: {PATH_TO_AUDIO})

    Возвращает:
        wav_files (List[str]) - Список wav файлов, с которыми будем работать
    """
    # будущий список wav
    wav_files = []
    for root, _, files in os.walk(path):
        for file in files:
            if file.endswith(".wav"):
                wav_files.append(os.path.join(root, file))
    return wav_files


def get_files_sample_rate(path_to_audio: str = PATH_TO_AUDIO) -> pd.DataFrame:
    """Получить список частот дескритезации аудиофайлов в катологе path_to_audio

    Аргументы:
        - path_to_audio (str) - каталог wav файлов (по умолчанию: {PATH_TO_AUDIO})

    Возвращает:
        - df_sample_rates (pd.DataFrame) - фрейм из файлов и их частотами дискретизации
    """
    df_sample_rates = pd.DataFrame(columns=['audiofile_name', 'sample_rate'])
    for root, _, files in os.walk(path_to_audio):
        for file in files:
            file_path = os.path.join(root, file)
            if file.endswith(".wav"):
                with wave.open(file_path, "rb") as wave_file:
                    sample_rate = wave_file.getframerate()
                    # print(file, sample_rate)
                    df_sample_rates =\
                        df_sample_rates.append(
                            {
                                'audiofile_name': file,
                                'sample_rate': sample_rate
                            },
                            ignore_index=True
                        )
    return df_sample_rates


def recognize_with_speech_recognition(path_to_audio: str = PATH_TO_AUDIO) -> None:
    """Транскрипция с помощью модуля speech_recognition

    Аргументы:
        - path_to_audio (str) (по умолчанию: {PATH_TO_AUDIO})

    Возвращает:
        None
    """
    # создаем экземпляр класса Recognizer
    recognizer = speech_r.Recognizer()

    for root, _, files in os.walk(path_to_audio):
        for file in files:
            file_path = os.path.join(root, file)
            if file.endswith(".wav"):
                # Create audio file instance from the original file
                call_record = speech_r.AudioFile(file_path)
                type(call_record)
                # Create audio data
                with call_record as source:  # pylint: disable=unused-variable
                    recognizer.adjust_for_ambient_noise(call_record)
                    audiodata = recognizer.record(call_record)
                # type(audiodata)

                try:
                    print("Google определил текст: " + recognizer.recognize_google(audiodata, language='ru'))
                except speech_r.UnknownValueError as e:
                    print("Ошибка распознавания" + str(e))

                # не удалось запустить на macos
                # try:
                #     print("Sphinx определил текст: " + recognizer.recognize_sphinx(audiodata, language='ru'))
                # except speech_r.UnknownValueError as e:
                #     print("Ошибка распознавания" + str(e))


def recognize_with_vosk(file_list: list, sample_rate: int = SAMPLE_RATE) -> pd.DataFrame:
    """Транскрипция файлов из file_list и запись имени файла и его текста в pd.DataFrame

        - file_list (list) - список, из которого читаем файлы

    Возвращает:
        - transcribed (pd.DataFrame) - фрейм с именами файлов и их транскрипцией
    """
    if not os.path.exists('model'):
        print("Необходимо загрузить модель с: https://alphacephei.com/vosk/models\
            и распаковать как 'model' в текущую папку.")
    else:
        # экземпляр модели
        model = Model('model')
        # экземпляр рекогнайзера
        rec = KaldiRecognizer(model, sample_rate)
        # dataframe для хранения транскрипции текста
        transcribed = pd.DataFrame(columns=['audiofile_name', 'raw_text'])
        # проверка на существование каталога модели

        for file in tqdm(file_list):
            print(file)

            recognized_data = ''
            wave_audio_file = wave.open(file, "rb")
            data = wave_audio_file.readframes(wave_audio_file.getnframes())
            if len(data) == 0:
                break

            rec.AcceptWaveform(data)
            recognized_data = json.loads(rec.Result())["text"]
            print(recognized_data)
            _, audiofile_name = os.path.split(file)

            transcribed =\
                transcribed.append(
                    {
                        'audiofile_name': audiofile_name,
                        'raw_text': recognized_data
                    },
                    ignore_index=True
                )
    return transcribed


# если датасет лежит во вложенных архивах - разархивируем
# recursive_unpack(path=PATH_TO_AUDIO)
# если датасет лежит в архиве без вложенных архивов - разархивируем
# single_unpack(path=PATH_TO_AUDIO)

# Транскрипция

**Применим объявленные функции и посмотрим на результат**

In [None]:
# смотрим sample rates
df_samplerates = get_files_sample_rate(path_to_audio=PATH_TO_AUDIO)
print(df_samplerates)
# транскрипция с помощью speech_recognition
recognize_with_speech_recognition(PATH_TO_AUDIO)
# создаем список wav файлов в каталоге audio
list_of_wavs = create_list_of_wavs(PATH_TO_AUDIO)
# транскрипция списка с помощью vosk
df_transcribed = recognize_with_vosk(list_of_wavs, SAMPLE_RATE)
# выгружаем результат
df_transcribed.to_excel(r"excel/transcribed.xlsx")

# Выводы:  
**1. Google**  

Преимущества:  
- справляется относительно хорошо, но бывает ошибается в падежах,  
- занимает мало места на диске,  
- просто использовать.  

Недостатки:  
- отправка данных на сервер для обработки, не подходит по критериям,
- платное использование сверх n взаимодействий в день, не подходит по критериям.

**2. Sphinx**  

Преимущества:  
- занимает мало места на диске,  
- просто использовать.  

Недостатки:  
- справляется относительно плохо, транскрибирует неправильно значительную часть аудио.  

**3. VOSK**  

Преимущества: 
- справляется относительно хорошо,  
- есть возможность адаптации модели под свои потребности,  
- есть возможность загрузить "маленькую" и "большую" модель  
    в зависимости от устройства использования и желаемой точности  

Недостатки:
- возможно потребуется некоторая предобработка кодеков аудио  

В этом примере предпочтительно было использовать VOSK API.