Для задачи я использовал библиотеки SpeechRecognition и pyaudio.  

In [None]:
!pip install SpeechRecognition  pyaudio


In [48]:
import speech_recognition as sr
import pyaudio
import os

In [67]:
def speech_to_text(name_file: str, audio_file=None, format='.txt') -> None:
    """Функция для преобразования аудиофайла с русской речью в текстовый формат

    Args:
        name_file (str): Название файла в который будет записан распознаный текст
        audio_file (optional): ссылка на голосовой файл. Если не указан, используется микрофон для записи речи.
        format (str, optional): Формат для записи текстовово файла. По умолчанию '.txt'.
    """

    #для начала нужно создать распознаватель
    r = sr.Recognizer()
    
    #далее нужно звуковой файл звуковой файл обабатывается и данные сохраняются в экзмляре библиотеки speech_recognition для дальнейшеё обработки
    if audio_file: 
        sound = sr.AudioFile(os.path.normpath(audio_file)) 
    
        with sound as source: 
            audio = r.record(source)
            
    else:
        mic = sr.Microphone()
        with mic as source:
            r.adjust_for_ambient_noise(source=source, duration=0.5)
            audio = r.listen(source)
        
    #для распознования я использовал распознователь от google, в котором указал язык записанной речи
    text = r.recognize_google(audio_data=audio, language="ru-RU") 
    
    #полученный текст записывается в текстовом формате по умолчанию .txt
    with open(name_file+format, 'w') as file:
        file.write(text)

In [77]:
def recod_audio(filename, format=".wav", duration=3):
    """Функция для записи аудио с микрофона.

    Args:
        filename (str): Название файла 
        format (str, optional): Формат записи аудиофайла. По умолчанию ".wav".
        duration (int, optional): Время для записи. По умолчанию  3 секунды.

    Returns:
        str: название файла в котором записался звук.
    """
    import wave
    import pyaudio
    
    chunk = 1024 # Запись кусками по 1024 сэмпла
    sample_format = pyaudio.paInt32 # 16 бит на выборку
    channels = 1
    rate = 44100 # Запись со скоростью 44100 выборок(samples) в секунду
    
    p = pyaudio.PyAudio() 

    print('Начало записи...')

    stream = p.open(format=sample_format,
    channels=channels,
    rate=rate,
    frames_per_buffer=chunk,
    #input_device_index=1, # индекс устройства с которого будет идти запись звука 
    input=True)

    frames = [] # Инициализировать массив для хранения кадров

    # Хранить данные в блоках в течение 3 секунд
    for i in range(0, int(rate / chunk * duration)):
        data = stream.read(chunk)
        frames.append(data)

    # Остановить и закрыть поток
    stream.stop_stream()
    stream.close()
    # Завершить интерфейс PortAudio
    p.terminate()

    print('Записано!')
    
    with wave.open(filename+format, 'wb') as wf:
        wf.setnchannels(channels)
        wf.setsampwidth(p.get_sample_size(sample_format))
        wf.setframerate(rate)
        wf.writeframes(b''.join(frames))
    del frames
    return filename+format

Для выполнения задания я использовал следующие статьи:
* https://pythonpip.ru/examples/raspoznavanie-rechi-i-golosa-na-python-podrobno для преобразования звука в текст
* https://blog-programmista.ru/post/103-python-ispolzuem-pyaudio-dla-zapisi-zvuka.html?ysclid=lnbh6x8g31788894595 для записи звука с микрофона.