In [1]:
import speech_recognition as sr
import os
from pydub import AudioSegment
from pydub.silence import split_on_silence

In [2]:
r = sr.Recognizer()

In [9]:
def transcrive_audio(path):
    with sr.AudioFile(path) as source:
        audio_listened = r.record(source)
        text = r.recognize_google(audio_listened, language="ru")
    return text

In [10]:
def get_large_audio_transacription_on_silence(path):
    """ Split the large audio file into chunks
    and apply speech recognition on each of these chunks"""
    sound = AudioSegment.from_file(path)
    chunks = split_on_silence(sound,
                              min_silence_len=500, # len of silence in milisec
                              silence_thresh=sound.dBFS-14, # level of silence in dB
                              keep_silence=500)
    folder_name = 'audio_chunks'

    if not os.path.isdir(folder_name):
        os.mkdir(folder_name)

    whole_text = ''

    for i, audio_chunk in enumerate(chunks, start=1):
        chunk_filename = os.path.join(folder_name, f"chunk{i}.wav")
        audio_chunk.export(chunk_filename, format="wav")

        try:
            text = transcrive_audio(chunk_filename)
        except sr.UnknownValueError as e:
            print("Error:", str(e))
        else:
            text = f"{text.capitalize()}. "
            print(chunk_filename, ":", text)
            whole_text += text

    return whole_text


In [5]:
path = 'mp3/incall_22022024_0916_375297928930_375447657648.wav'

In [11]:
print("full text:", get_large_audio_transacription_on_silence(path))

Error: 
audio_chunks/chunk2.wav : Добрый день компания екатерина добрый день девушка скажите по поводу карелии уже ну представлено какая-то программа даты или ещё нет. 
audio_chunks/chunk3.wav : Расставлена какие у вас дата интересует. 
Error: 
Error: 
Error: 
audio_chunks/chunk7.wav : Да просто. 
Error: 
audio_chunks/chunk9.wav : А сколько дней она. 
audio_chunks/chunk10.wav : Пятидневная. 
audio_chunks/chunk11.wav : Хорошо а вы мне можете это. 
audio_chunks/chunk12.wav : Скинуть программу и да. 
audio_chunks/chunk13.wav : В мае когда и в июле потому что мы думаем а в мае она вообще наверное да чем летом посмотреть. 
audio_chunks/chunk14.wav : Или как. 
audio_chunks/chunk15.wav : Карелия прекрасна в любой период то есть там в зависимости от погоды своей красоты открываются скажем так. 
audio_chunks/chunk16.wav : Хорошо а вы мне ну а цена сколько стоит. 
Error: 
audio_chunks/chunk18.wav : Ну если у вас есть на этом то я вам сброшу на этот номер да-да на этот именно дате какие вот меня 

In [12]:
with sr.AudioFile(path) as source:
        r.adjust_for_ambient_noise(source, duration=0.5)
        audio_listened = r.record(source)
        text = r.recognize_google(audio_listened, language="ru", show_all=True)

In [14]:
with sr.AudioFile(path) as source:
        r.adjust_for_ambient_noise(source, duration=0.5)
        audio_listened = r.record(source)
        text = r.recognize_sphinx(audio_listened, language="ru", show_all=True)

RequestError: missing PocketSphinx module: ensure that PocketSphinx is set up correctly.

In [13]:
text

{'alternative': [{'transcript': 'Добрый день компания Екатерина добрый день девушка Скажите по поводу Карелии уже ну представлено какая-то программа даты или ещё нет или июль смотря это без Питера',
   'confidence': 0.93195337},
  {'transcript': 'Добрый день компания Екатерина добрый день девушка Скажите по поводу Карелии уже ну представлено какая-то программа даты или ещё нет наверное май месяц или июль смотря это без Питера'},
  {'transcript': 'Добрый день компания Екатерина добрый день девушка Скажите по поводу Карелии уже ну проставлено какая-то программа даты или ещё нет или июль смотря это без Питера'},
  {'transcript': 'Добрый день компания Екатерина добрый день девушка Скажите по поводу Карелии уже ну представлено какая-то программа дата или ещё нет или июль смотря это без Питера'},
  {'transcript': 'Добрый день компания Екатерина добрый день девушка Скажите по поводу Карелии уже ну представлено какая-то программа датэ или ещё нет или июль смотря это без Питера'}],
 'final': Tr