## Задача 1

Написать программу, которая распознает голосовые фразы:

1.	"привет я разработчик" и отвечает "сегодня выходной".
2.	"Я сегодня не приду домой" и отвечает "Ну и катись отсюда".


### Требования:

1.	Провести анализ и сравнение моделей для распознавания текста.
2.	Выбрать лучшую модель с учетом скорости распознавания и обосновать свой выбор.
3.	Для генерации текста (проговаривания ответа) можно использовать любую модель.


### Ожидаемые результаты:

1.	Программа должна корректно распознавать указанные голосовые фразы и давать соответствующий ответ.
2.	Подробный анализ моделей для распознавания текста, включая сравнение точности и скорости выполнения.
3.	Обоснование выбора модели.


## Задача 2


Используя платформу Huggingface, провести анализ моделей или использовать готовую библиотеку Python для разделения аудиодорожки на отдельные персоны и распознать текст, сказанный каждой персоной на аудио.

### Требования:

1.	Разделить аудиодорожку на несколько сегментов, каждый из которых соответствует отдельной персоне.
2.	Использовать код из первой задачи для распознавания текста, сказанного каждой персоной.


### Ожидаемые результаты:

1.	Код для разделения аудиодорожки на отдельные персоны.
2.	Программа, которая распознает текст, сказанный каждой персоной на аудио.
3.	Анализ и обоснование выбранных методов и моделей.


## Решение задачи №1

Буду использовать SpeechRecognition — это популярная библиотека для распознавания речи на Python. Она поддерживает несколько движков распознавания, включая Google Web Speech API. Эта библиотека является отличным выбором для нашей первой задачи. 

In [1]:
import speech_recognition as sr
from gtts import gTTS
import os

In [2]:
# функция для распознания речи с помощью микрофона и Google Web Speech API
def recognize_speech_from_mic(recognizer, microphone):
    with microphone as source:
# адаптации к фоновому шуму, чтобы улучшить качество распознавания речи 
        recognizer.adjust_for_ambient_noise(source)
# записывает аудио с микрофона        
        audio = recognizer.listen(source)
    response = {
        "success": True,
        "error": None,
        "transcription": None
    }
 # распознавание речи с использованием Google Web Speech API  
    try:
        response["transcription"] = recognizer.recognize_google(audio, language="ru-RU")
    except sr.RequestError:
        response["success"] = False
        response["error"] = "API unavailable"
    except sr.UnknownValueError:
        response["error"] = "Unable to recognize speech"
    return response

In [3]:
# функция проверяет, соответствует ли транскрипция заданным условиям и воспроизводит ответ
def respond_to_speech(transcription):
    if transcription == "Привет я разработчик":
        response_text = "Сегодня выходной"
    elif transcription == "Я сегодня не приду домой":
        response_text = "Ну и катись отсюда"
    else:
        response_text = "Неизвестная команда"

    print("Ответ оператора: {}".format(response_text))
# генерация аудиофайла с помощью Google Text-to-Speech   
    tts = gTTS(text=response_text, lang='ru')
# сохранение и воспроизведение аудиофайла  
    tts.save("response.mp3")
    os.system("mpg321 response.mp3")


In [4]:
# запускаем программу
if __name__ == "__main__":
    recognizer = sr.Recognizer()
    microphone = sr.Microphone()
    print("Скажите что-нибудь...")
    response = recognize_speech_from_mic(recognizer, microphone)
    if response["success"]:
        print("Разработчик: {}".format(response["transcription"]))
        respond_to_speech(response["transcription"])
    else:
        print("Ошибка: {}".format(response["error"]))


Скажите что-нибудь...
Разработчик: Привет я разработчик
Ответ оператора: Сегодня выходной


High Performance MPEG 1.0/2.0/2.5 Audio Player for Layer 1, 2, and 3.
Version 0.3.2-1 (2012/03/25). Written and copyrights by Joe Drew,
now maintained by Nanakos Chrysostomos and others.
Uses code from various people. See 'README' for more!
THIS SOFTWARE COMES WITH ABSOLUTELY NO WARRANTY! USE AT YOUR OWN RISK!
tcgetattr(): Inappropriate ioctl for device

Playing MPEG stream from response.mp3 ...
MPEG 2.0 layer III, 64 kbit/s, 24000 Hz mono
                                                                            
[0:01] Decoding of response.mp3 finished.


## Заключение

Задача выполнена, программа распознает речь и отвечает согласно заданным условия.

## Решение задачи №2

Для задачи выбрал более информативный диалог. Аудио файлы прилагаются.

— Алло, привет Катюша.

 

— Приветик!

 

— Я тебе вчера весь вечер звонила, так и не дозвонилась!

 

— Я не слышала, как ты звонила. Я готовила ужин и убиралась в квартире целый вечер.  Как у тебя дела? Чем занимаешься?

 

— Я сейчас иду к врачу у меня зуб болит, а ты что делаешь?

 

— Я еду в турагентство. Мы с Сашей хотим съездить на море отдохнуть.

 

— Вы уже выбрали страну?

 

— Нет ещё, но в прошлом году мы ездили на наш юг – нам очень понравилось! Может и в этом году туда поедем.  А у тебя есть планы на лето?

 

— Да, я думала поехать заграницу. Я каждый год езжу на наш юг, хочется чего-то нового!

 

— Понятно. А что ты делаешь сегодня вечером?

 

—  Я думала в кино сходить. Может вместе сходим?

 

— А у меня есть два билета в театр, на работе раздавали. Пойдёшь со мной?

 

— Ой, с удовольствием! Обожаю театр!

 

— Спектакль начинается в 19:00. Давай встретимся у выхода из метро в 18:30.

 

— Хорошо. До встречи!

 

— Пока!

#### План работы

Расссмотрим две популярные модели на платформе Huggingface, а точнее популярные гибриды:
- vosk-model-ru-0.42 (модель для распознавания речи на русском языке, использует технологию машинного обучения для анализа аудиозаписи и преобразования её в текст + SbertPuncCase (модель восстановления пунктуации и регистра для русского языка).
- whisper/pyannote/speaker-diarization-3.1 (модель  используется для распознавания речи и определения количества говорящих в аудиозаписи.  Модель позволяет автоматически определять количество говорящих и их идентификаторы в аудиозаписи, что может быть полезно при анализе разговоров, интервью или других аудиоматериалов.)

### vosk-model-ru-0.42 + SbertPuncCase

### кодовое окно

In [5]:
import sys
import wave
import json
import datetime

from vosk import Model, KaldiRecognizer, SetLogLevel
from sbert_punc_case_ru import SbertPuncCase
import nltk

nltk.download('punkt')
SetLogLevel(0)

def format_time(seconds):
    hours = int(seconds // 3600)
    minutes = int((seconds % 3600) // 60)
    seconds = seconds % 60
    time_str = "{:02d}:{:02d}:{:05.2f}".format(hours, minutes, seconds)
    return time_str

def assign_time_to_sentences(sentences, words_timings):
    sentence_times = []
    timings_index = 0
    num_timings = len(words_timings)

    for sentence in sentences:
        sentence_start_time = None
        sentence_end_time = None

        sanitized_sentence = "".join([char for char in sentence if char.isalnum() or char.isspace()]).split()
        words_found = 0

        while timings_index < num_timings and words_found < len(sanitized_sentence):
            word_timing = words_timings[timings_index]
            word = word_timing[0]
            word_start_time = word_timing[1]
            word_end_time = word_timing[2]

            sanitized_word = "".join([char for char in word if char.isalnum()])

            if sanitized_word.lower() == sanitized_sentence[words_found].lower():
                if sentence_start_time is None:
                    sentence_start_time = word_start_time
                sentence_end_time = word_end_time
                words_found += 1

            timings_index += 1
        
        if sentence_start_time is not None and sentence_end_time is not None:
            sentence_times.append({
                "start": sentence_start_time,
                "end": sentence_end_time,
                "sentence": sentence
            })

    return sentence_times

def run_vosk(input_audio_file, output_text_file):
    try:
        """ Открытие WAV файла """
        wf = wave.open(input_audio_file, "rb")
    except IOError as err:
        return [False, f"Failed to open WAV file. Error: {err}"]
    
    if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getcomptype() != "NONE":
        return [False, "Audio file must be WAV format mono PCM."]
    
    try:
        model = Model(model_name="vosk-model-ru-0.42")
        rec = KaldiRecognizer(model, wf.getframerate())
        rec.SetWords(True)
        rec.SetPartialWords(True)

        words_timings = []
        text_for_punctuation = ""

        while True:
            data = wf.readframes(4000)
            if len(data) == 0:
                break
            if rec.AcceptWaveform(data):
                res = json.loads(rec.Result())
                if "result" in res:
                    for word_info in res["result"]:
                        words_timings.append((word_info["word"], word_info["start"], word_info["end"]))
                        text_for_punctuation += word_info["word"] + " "

        model_punc = SbertPuncCase()
        text_with_punctuation = model_punc.punctuate(text_for_punctuation)

        from nltk.tokenize import sent_tokenize
        sentences = sent_tokenize(text_with_punctuation, language="russian")

        sentence_times = assign_time_to_sentences(sentences, words_timings)

        with open(output_text_file, "w", encoding='utf-8') as out_file:
            for item in sentence_times:
                start_time_formatted = format_time(item["start"])
                end_time_formatted = format_time(item["end"])
                out_file.write(f"[{start_time_formatted}, {end_time_formatted}] - {item['sentence']}\n")

    except Exception as e:
        return [False, f"Unexpected error: {e}"]

    return [True]

if __name__ == "__main__":
    input_audio_file = r"/Users/urvanov_aleksandr/Documents/Yandex/Projects/razgovor_telephone.wav"
    output_text_file = r"razgovor_telephone_vosk.txt"
    result = run_vosk(input_audio_file, output_text_file)
    if result[0]:
        print("Processing completed successfully.")
    else:
        print(f"Error: {result[1]}")

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/urvanov_aleksandr/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
LOG (VoskAPI:ReadDataFiles():model.cc:213) Decoding params beam=13 max-active=7000 lattice-beam=6
LOG (VoskAPI:ReadDataFiles():model.cc:216) Silence phones 1:2:3:4:5:6:7:8:9:10
LOG (VoskAPI:RemoveOrphanNodes():nnet-nnet.cc:948) Removed 1 orphan nodes.
LOG (VoskAPI:RemoveOrphanComponents():nnet-nnet.cc:847) Removing 2 orphan components.
LOG (VoskAPI:Collapse():nnet-utils.cc:1488) Added 1 components, removed 2
LOG (VoskAPI:ReadDataFiles():model.cc:248) Loading i-vector extractor from /Users/urvanov_aleksandr/.cache/vosk/vosk-model-ru-0.42/ivector/final.ie
LOG (VoskAPI:ComputeDerivedVars():ivector-extractor.cc:183) Computing derived variables for iVector extractor
LOG (VoskAPI:ComputeDerivedVars():ivector-extractor.cc:204) Done.
LOG (VoskAPI:ReadDataFiles():model.cc:279) Loading HCLG from /Users/urvanov_aleksandr/.cache/vosk/vosk-model-ru-0.42/g

Processing completed successfully.


### результат

In [6]:
with open('razgovor_telephone_vosk.txt', 'r') as f:
    data = f.read()
print(data)

[00:00:00.48, 00:00:01.65] - Алло, Привет, Катюша.
[00:00:01.89, 00:00:02.73] - приветик.
[00:00:02.88, 00:00:05.88] - Я тебе вчера весь вечер звонила, так и не дозвонилась.
[00:00:06.09, 00:00:08.07] - Я не слышала, как ты звонила.
[00:00:08.40, 00:00:12.09] - Я готовила ужин и убиралась в квартире целый вечер.
[00:00:12.36, 00:00:13.44] - Как у тебя дела?
[00:00:13.71, 00:00:14.94] - Чем занимаешься?
[00:00:15.24, 00:00:17.76] - Я сейчас иду к врачу, у меня зуб болит.
[00:00:18.09, 00:00:19.08] - А ты что делаешь?
[00:00:19.50, 00:00:21.24] - Я еду в турагентство.
[00:00:21.54, 00:00:24.45] - Мы с Сашей хотим съездить на море, отдохнуть.
[00:00:24.75, 00:00:26.01] - Вы уже выбрали страну?
[00:00:26.43, 00:00:27.24] - Нет ещё.
[00:00:27.54, 00:00:32.25] - Но в прошлом году мы ездили на наш юг, нам очень понравилось.
[00:00:32.49, 00:00:34.62] - Может, и в этом году туда поедем.
[00:00:34.80, 00:00:37.32] - А у тебя есть планы на лето, да?
[00:00:37.32, 00:00:38.82] - Я думала поехать 

### whisper/pyannote/speaker-diarization-3.1 для диалога на русском языке

### кодовое окно

In [7]:
from pyannote.audio import Pipeline
from pydub import AudioSegment
import whisper
import numpy as np
import gc

os.environ['TOKENIZERS_PARALLELISM'] = 'false'

pipeline = Pipeline.from_pretrained(
  "pyannote/speaker-diarization-3.1",
  use_auth_token="use_auth_token")


def read(k):
    y = np.array(k.get_array_of_samples())
    return np.float32(y) / 32768


def millisec(timeStr):
    spl = timeStr.split(":")
    return (int)((int(spl[0]) * 60 * 60 + int(spl[1]) * 60 + float(spl[2])) * 1000)

k = str(pipeline(
    "/Users/urvanov_aleksandr/Documents/Yandex/Projects/razgovor_telephone.mp3")).split('\n')

del pipeline
gc.collect()

audio = AudioSegment.from_mp3(
    "/Users/urvanov_aleksandr/Documents/Yandex/Projects/razgovor_telephone.mp3")
audio = audio.set_frame_rate(16000)

model = whisper.load_model("large-v3")

for l in range(len(k)):

    j = k[l].split(" ")
    start = int(millisec(j[1]))
    end = int(millisec(j[4][:-1]))

    tr = read(audio[start:end])

    result = model.transcribe(tr, fp16=False)

    f = open("/Users/urvanov_aleksandr/Documents/Yandex/Projects/razgovor_telephone_whisper.txt", "a")
    f.write(f'\n[ {j[1]} -- {j[3]} ] {j[6]} : {result["text"]}')
    f.close()

    del f
    del result
    del tr
    del j
    gc.collect()
    

[src/libmpg123/layer3.c:INT123_do_layer3():1801] error: dequantization failed!
[src/libmpg123/layer3.c:INT123_do_layer3():1801] error: dequantization failed!


### результат

In [8]:
with open('/Users/urvanov_aleksandr/Documents/Yandex/Projects/razgovor_telephone_whisper.txt', 'r') as f:
    data = f.read()
print(data)


[ 00:00:00.520 --  ] SPEAKER_00 :  Алло, привет, Катюша. Приветик. Я тебе вчера весь вечер звонила, так и не дозвонилась. Я не слышала, как ты звонила. Я готовила ужин и убиралась в квартире целый вечер. Как у тебя дела? Чем занимаешься? Я сейчас иду к врачу. У меня зуб болит. А ты что делаешь? Я еду в турагентство. Мы с Сашей хотим съездить на море отдохнуть. Вы уже выбрали страну?
[ 00:00:26.389 --  ] SPEAKER_00 :  Нет ещё. Но в прошлом году мы ездили на наш юг. Нам очень понравилось. Может, и в этом году туда поедем. А у тебя есть планы на лето? Да, я думала поехать за границу. Я каждый год езжу на наш юг. Хочется чего-то нового. Понятно. А что ты делаешь сегодня вечером? Я думала в кино сходить. Может, вместе сходим? А у меня есть два билета в театр. На работе раздавали. Пойдёшь со мной? Ой, с удовольствием. Обожаю театр.
[ 00:00:57.372 --  ] SPEAKER_00 :  Спектакль начинается в 19.00.
[ 00:01:00.443 --  ] SPEAKER_00 :  Давай встретимся у выхода из метро в 18.30.
[ 00:01:04.459 --

### whisper/pyannote/speaker-diarization-3.1 для диалога на анлийско языке

Для эксперимента попробую диалог на английском этой же модели.

### кодовое окно

In [9]:

pipeline = Pipeline.from_pretrained(
  "pyannote/speaker-diarization-3.1",
  use_auth_token="use_auth_token")


def read(k):
    y = np.array(k.get_array_of_samples())
    return np.float32(y) / 32768


def millisec(timeStr):
    spl = timeStr.split(":")
    return (int)((int(spl[0]) * 60 * 60 + int(spl[1]) * 60 + float(spl[2])) * 1000)

k = str(pipeline(
    "/Users/urvanov_aleksandr/Documents/Yandex/Projects/interview_eng.mp3")).split('\n')

del pipeline
gc.collect()

audio = AudioSegment.from_mp3(
    "/Users/urvanov_aleksandr/Documents/Yandex/Projects/interview_eng.mp3")
audio = audio.set_frame_rate(16000)

model = whisper.load_model("large-v3")

for l in range(len(k)):

    j = k[l].split(" ")
    start = int(millisec(j[1]))
    end = int(millisec(j[4][:-1]))

    tr = read(audio[start:end])

    result = model.transcribe(tr, fp16=False)

    f = open("/Users/urvanov_aleksandr/Documents/Yandex/Projects/interview_eng_whisper.txt", "a")
    f.write(f'\n[ {j[1]} -- {j[3]} ] {j[6]} : {result["text"]}')
    f.close()

    del f
    del result
    del tr
    del j
    gc.collect()


### результат

In [10]:
with open('/Users/urvanov_aleksandr/Documents/Yandex/Projects/interview_eng_whisper.txt', 'r') as f:
    data = f.read()
print(data)


[ 00:00:01.380 --  ] SPEAKER_00 : 
[ 00:00:02.039 --  ] SPEAKER_00 :  framework that we work with in that if there is surplus government land that it is put to the market for disposal. So I suppose there is that little bit of conflict, perceived conflict, with what we do and the policy that exists.
[ 00:00:10.189 --  ] SPEAKER_01 :  Yeah.
[ 00:00:20.635 --  ] SPEAKER_02 :  So it's probably quite variable, I guess, depending on the politics of the day. You mentioned that there's a framework you're working within there. Would you say you're more guided by that?
[ 00:00:28.802 --  ] SPEAKER_02 :  framework or the politics of the day when you're making those decisions.
[ 00:00:33.325 --  ] SPEAKER_00 :  It is the framework.
[ 00:00:34.995 --  ] SPEAKER_02 :  Yes.
[ 00:00:35.012 --  ] SPEAKER_00 :  So the government land transaction guidelines dictate that we are selling government land.
[ 00:00:41.492 --  ] SPEAKER_02 :  Okay.
[ 00:00:42.134 --  ] SPEAKER_00 :  or surplus government land 

## Заключение

Первая и вторая модель по диалогу на русском имеют проблемы с разделением спикеров. Вторая модель вывела ошибку в самом аудио файле, что могло стать ключевым фактором проблемы с разделением. Эта же модель на английском аудиофайле показала отличный результат.  Для каждой задачи необходим индивидуальный подход. 