Especificações do Ambiente:
- Debian Buster (v.10)
- Python 3.7.3
- Vs Code v.1.49

Para execução desse projeto foram necessárias a instalações dos seguintes pacotes:
- Python Wheel
- Speech Recognition
- PyAudio
- Pocket Sphinx
- Google Api Python Client
- Youtube DL
- FFMpeg

In [None]:
!pip3 install wheel
!pip3 install SpeechRecognition
!pip3 install pyaudio
!pip3 install pocketsphinx
!pip3 install google-api-python-client
!pip3 install youtube-dl
!sudo apt install ffmpeg

Importação das bibliotecas necessárias para o funcionamento do projeto

In [None]:
import speech_recognition as sr

No bloco abaixo, instancializamos o Recognizer qu eé o responsável por fazer o reconhecimento do audio e a transcrição para texto, assim como utilizamos da biblioteca Speech Recognition para instancializar o Microfone utilizado para captar a voz do usuário.

In [None]:
r = sr.Recognizer()
with sr.Microphone() as mic:
    print("Fale:")
    record = r.listen(mic)

Capturado o áudio com a função `listen()`, utilizaremos a função `recognize_google()` para fazer a transcrição do texto passando o parametro `language="pt-BR"` para indicarmos que o idioma do áudio é Português - Brasil.

In [None]:
try:
    print("Você disse: " + r.recognize_google(record, language="pt-BR"))
except sr.UnknownValueError:
    print("Não foi possível entender o que você disse!")
except sr.RequestError as e:
    print("Could not request results; {0}".format(e))

Utilizando ainda do áudio capturado do usuário, podemos salvar o texto dentro de um arquivo `.txt`.

In [None]:
text_file = open("texto_falado.txt", "w")
n = text_file.write(r.recognize_google(record, language="pt-BR"))
text_file.close()

Levando em consideração a aplicação anterior, a biblioteca `Speech Recognition` também disponibiliza a opção de fazermos a transcrição de um arquivo de áudio retirado de um vídeo do youtube.
Para realizarmos essa funcionalidade, além da biblioteca `Speech Recognition` também utilizaremos a `YouTube DL` para fazer o download do áudio de um vídeo do youtube. Para trazermos o áudio no formato `.wav`, utilizamos do recurso de parâmetros para definirmos as nossa preferências.

In [None]:
from __future__ import unicode_literals
import youtube_dl

ydl_opts = {
    'format': 'bestaudio/best',
    'postprocessors': [{
        'key': 'FFmpegExtractAudio',
        'preferredcodec': 'wav',
        'preferredquality': '192',
    }],
}

with youtube_dl.YoutubeDL(ydl_opts) as ydl:
    print("Baixando / Convertendo o vídeo")
    ydl.download(['https://www.youtube.com/watch?v=Tx0DFkv7ifA'])
print("Pronto!")

Feito o download e conversão do vídeo é necessário renomear o arquivo para *audio.wav* para que seja feita a transcrição do arquivo.

In [None]:
arq_audio = sr.AudioFile('audio.wav')
with arq_audio as source:
    rec_file = r.record(source)

Diferentemente do modo onde usamos o microfone, dessa vez utilizamos os dois métodos `AudioFile()` e o `record()` para capturamos o audio. E igualmente iremos utilizar o método `recognize_google()` para transcrever o áudio e salvar em um arquivo `.txt`

In [None]:
text_file = open("texto_video.txt", "w")
texto = r.recognize_google(rec_file, language="pt-BR")
n = text_file.write(texto)
text_file.close()