# Speech Recognition

Este código implementa uma função de reconhecimento de fala (ou speech recognition em inglês). Essa tecnologia permite que dispositivos como computadores e smartphones transcrevam a fala humana em texto em tempo real.

Como funciona:

1) Acesso ao microfone: O código solicita permissão para utilizar o microfone do dispositivo.
2) Captura da fala: Enquanto o usuário fala, o áudio é capturado pelo microfone.
3) Processamento da fala: O áudio capturado é enviado para um motor de reconhecimento de fala, que o analisa e converte em texto.
4) Exibição do texto: O texto gerado é exibido na tela, geralmente de forma instantânea.

In [None]:
# Instalação de biblioteca

%pip install SpeechRecognition

In [None]:
# Importando biblioteca

import speech_recognition as sr

In [None]:
# Executar o ouvir

ouvir_microfone()

Aplicações do reconhecimento de fala:

1) Assistentes virtuais: Como a Siri, o Google Assistant e a Alexa, que respondem a comandos de voz.
2) Ditado de texto: Permite digitar documentos ou mensagens usando apenas a voz.
3) Tradução em tempo real: Permite traduzir conversas em diferentes idiomas.
4) Acessibilidade: Facilita a interação com dispositivos para pessoas com dificuldades motoras ou visuais.
5) Automação: Permite controlar dispositivos e sistemas através de comandos de voz.

Tecnologias envolvidas:

1) Microfones: Capturam o áudio com alta qualidade.
2) Processamento de sinal: Filtra e amplifica o áudio para melhorar a qualidade.
3) Modelos de linguagem: Utilizados para reconhecer padrões na fala e gerar o texto correspondente.
4) Aprendizado de máquina: Permite que os modelos de linguagem se adaptem a diferentes vozes e acentos.

Desafios:

1) Ruídos: Ruídos de fundo podem interferir na precisão da transcrição.
2) Acentos e dialetos: Dificultam o reconhecimento de palavras e frases.
3) Velocidade da fala: Falar muito rápido ou muito devagar pode prejudicar a transcrição.

Mediante aos fatos apresentados é possível perceber que o reconhecimento de fala depende de alguns fatores, seja a qualidade do microfone, potência do dispositivo e/ou a complexidade da linguagem utilizada. Todos os fatores apresentados são de suma importância para uma boa performance do programa. Customizações são permitidas e são importantes para garantir uma boa execução das definições do escopo do desenvolvimento.

In [None]:
# Instalação de bibliotecas

%pip install urllib3==1.26.14
%pip install wheel
%pip install SpeechRecognition
%pip install pyaudio
%pip install gTTS
%pip install playsound

In [None]:
# Importando bibliotecas

import speech_recognition as sr
from gtts import gTTS
import pyaudio
import playsound

In [None]:
# Listar dispositivo de audio

p = pyaudio.PyAudio()
for i in range(p.get_device_count()):
    info = p.get_device_info_by_index(i)
    print(info['index'], info['name'], info['maxInputChannels'])

In [None]:
def ouvir_microfone():
    microfone = sr.Recognizer()  # Cria um objeto reconhecedor

    try:
        with sr.Microphone(device_index=0) as source:
            microfone.adjust_for_ambient_noise(source)  # Ajusta para o ruído ambiente
            print("Fale comigo:")  # Aviso para o usuário
            audio = microfone.listen(source)  # Escuta o áudio

            try:
                texto = microfone.recognize_google(audio, language='pt-BR')  # Reconhece o áudio
                print(f"Você disse: {texto}")
            except sr.UnknownValueError:
                print("Não entendi o que você disse.")
            except sr.RequestError as e:
                print(f"Erro ao solicitar resultados do serviço de reconhecimento; {e}")

    except Exception as e:
        print(f"Erro ao acessar o microfone: {e}")

In [None]:
# Executar o ouvir

ouvir_microfone()