<a href="https://colab.research.google.com/github/AnthonyAugust/Projetos-Finalizados/blob/Projetos-Finalizados/Assist%C3%AAncia_Virtual_(Comando_de_Voz_%2B_Texto).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip -q install gTTS SpeechRecognition pydub wikipedia
!apt-get -qq install -y ffmpeg > /dev/null

In [1]:
import os, re, urllib.parse
from gtts import gTTS
from IPython.display import Audio, HTML, display, Javascript, clear_output
from pydub import AudioSegment
import speech_recognition as sr
import wikipedia

# Wikipedia em portugu√™s
wikipedia.set_lang("pt")

def speak_pt(texto, filename="tts.mp3"):
    """Converte texto em fala (PT-BR) e toca no Colab."""
    tts = gTTS(text=texto, lang="pt", tld="com.br")
    tts.save(filename)
    display(Audio(filename, autoplay=True))

def abrir_link(url, rotulo=None):
    """Mostra um link clic√°vel que abre em nova aba."""
    rotulo = rotulo or url
    display(HTML(f'<a href="{url}" target="_blank" rel="noopener noreferrer">{rotulo}</a>'))

def limpar_texto(s):
    """Normaliza texto para facilitar matching de comandos."""
    return re.sub(r"\s+", " ", s).strip().lower()

In [None]:
#Testando o TTS
speak_pt("Ol√°! Eu j√° consigo falar. Vamos continuar a configura√ß√£o.")

In [2]:
from base64 import b64decode
from google.colab import output

JS_GRAVAR = r"""
async function gravarAudio(segundos) {
  const stream = await navigator.mediaDevices.getUserMedia({ audio: true });
  const rec = new MediaRecorder(stream);
  let dados = [];

  rec.ondataavailable = e => dados.push(e.data);
  rec.start();

  await new Promise(r => setTimeout(r, segundos * 1000));
  rec.stop();

  await new Promise(resolve => rec.onstop = resolve);
  const blob = new Blob(dados, { type: 'audio/webm' });
  const arrayBuffer = await blob.arrayBuffer();
  const base64 = btoa(String.fromCharCode(...new Uint8Array(arrayBuffer)));
  return base64;
}
"""

def gravar_para_wav(segundos=5, base="entrada"):
    """Grava 'segundos' de √°udio do mic e retorna o caminho do WAV."""
    display(Javascript(JS_GRAVAR))
    b64 = output.eval_js(f"gravarAudio({int(segundos)})")

    webm_path = f"/content/{base}.webm"
    wav_path  = f"/content/{base}.wav"

    with open(webm_path, "wb") as f:
        f.write(b64decode(b64))

    # Converte WEBM -> WAV (16kHz mono √© suficiente p/ STT)
    audio = AudioSegment.from_file(webm_path, format="webm")
    audio = audio.set_frame_rate(16000).set_channels(1)
    audio.export(wav_path, format="wav")
    return wav_path


In [None]:
#Testando a grava√ß√£o (Fale por 3 segundos e ou√ßa)
wav_teste = gravar_para_wav(3, base="teste_mic")
display(Audio(wav_teste, autoplay=True))

In [3]:
def transcrever_pt(caminho_wav):
    """Transcreve √°udio em PT-BR. Retorna string com o texto reconhecido."""
    r = sr.Recognizer()
    with sr.AudioFile(caminho_wav) as source:
        audio = r.record(source)
    try:
        texto = r.recognize_google(audio, language="pt-BR")
        return texto
    except sr.UnknownValueError:
        return ""
    except sr.RequestError as e:
        # Falha na API (sem internet, limite, etc.)
        print("Erro no servi√ßo de reconhecimento:", e)
        return ""



In [None]:
# Teste: grave 4s, depois transcreva
wav = gravar_para_wav(4, base="fala_teste")
print("Transcri√ß√£o:", transcrever_pt(wav))

In [4]:
def comando_wikipedia(frase):
    # tenta extrair o tema depois de 'wikipedia' ou de 'pesquisar ... na wikipedia'
    tema = None

    m = re.search(r"(?:wikip[e√©]dia?\s*(?:sobre|de)?\s*(.+))", frase)
    if m:
        tema = m.group(1).strip()
    else:
        m = re.search(r"pesquisar\s+(.+?)\s+na\s+wikip[e√©]dia?", frase)
        if m:
            tema = m.group(1).strip()

    if not tema:
        speak_pt("Qual assunto voc√™ quer pesquisar na Wikip√©dia?")
        return

    try:
        resumo = wikipedia.summary(tema, sentences=2, auto_suggest=True, redirect=True)
    except wikipedia.DisambiguationError as e:
        # Se houver v√°rias p√°ginas, tenta a primeira op√ß√£o
        opcao = e.options[0]
        resumo = wikipedia.summary(opcao, sentences=2, auto_suggest=True, redirect=True)
        tema = opcao
    except wikipedia.PageError:
        speak_pt("N√£o encontrei esse assunto na Wikip√©dia.")
        return

    print(f"üîé Wikip√©dia ‚Äî {tema}\n\n{resumo}")
    speak_pt(resumo)

def comando_youtube(frase):
    # pega o que vier depois de "youtube" ou de "abrir youtube para ..."
    m = re.search(r"(?:abrir\s+)?youtube(?:\s+para)?\s+(.+)", frase)
    termo = m.group(1).strip() if m else ""
    if not termo:
        speak_pt("Abrindo YouTube. Diga um termo depois de 'YouTube' para buscar algo espec√≠fico.")
        abrir_link("https://www.youtube.com", "Abrir YouTube")
        return

    q = urllib.parse.quote(termo)
    url = f"https://www.youtube.com/results?search_query={q}"
    speak_pt(f"Aqui est√£o resultados no YouTube para {termo}.")
    abrir_link(url, f"Abrir YouTube: {termo}")

def comando_farmacia(frase):
    # Link que utiliza sua localiza√ß√£o do navegador para listar farm√°cias pr√≥ximas
    url = "https://www.google.com/maps/search/farmacia+perto+de+mim"
    speak_pt("Mostrando farm√°cias pr√≥ximas.")
    abrir_link(url, "Abrir farm√°cias pr√≥ximas no Google Maps")

def executar_comando(frase_original):
    frase = limpar_texto(frase_original)

    if any(p in frase for p in ["sair", "encerrar", "tchau"]):
        speak_pt("At√© mais! Encerrando.")
        return "SAIR"

    if "wikip" in frase or "pesquisar" in frase and "wikip" in frase:
        comando_wikipedia(frase)
        return

    if "youtube" in frase:
        comando_youtube(frase)
        return

    if "farm" in frase or "farm√°cia" in frase or "perto" in frase and "farm" in frase:
        comando_farmacia(frase)
        return

    # ajuda
    if any(p in frase for p in ["ajuda", "help", "comandos"]):
        msg = ("Voc√™ pode dizer: "
               "‚Äòpesquisar [termo] na wikipedia‚Äô, "
               "‚Äòwikipedia sobre [termo]‚Äô, "
               "‚Äòabrir youtube para [termo]‚Äô, "
               "ou ‚Äòfarm√°cia mais pr√≥xima‚Äô. "
               "Diga ‚Äòsair‚Äô para encerrar.")
        print(msg)
        speak_pt(msg)
        return

    # Se n√£o entendeu:
    msg = "N√£o entendi o comando. Diga 'ajuda' para ver exemplos."
    print(msg)
    speak_pt(msg)

In [5]:
import threading

# Fun√ß√£o para TTS ass√≠ncrona (n√£o bloqueia o fluxo)
def speak_pt_async(texto, filename="tts.mp3"):
    def _speak():
        tts = gTTS(text=texto, lang="pt", tld="com.br")
        tts.save(filename)
        display(Audio(filename, autoplay=True))
    thread = threading.Thread(target=_speak)
    thread.start()

In [9]:
#Assistente de busca por voz
def assistente_por_voz_colab():
    speak_pt("Assistente iniciado. Diga um comando ou 'sair' para encerrar.")

    while True:
        try:
            # Aqui voc√™ grava enquanto fala
            wav = gravar_para_wav(segundos=5, base="entrada_usuario")
            texto = transcrever_pt(wav)

            if not texto:
                print("N√£o captei nada. Vamos tentar de novo.")
                continue

            print(f"üó£Ô∏è  Voc√™ disse: {texto}")
            resultado = executar_comando(texto)
            if resultado == "SAIR":
                break

        except Exception as e:
            print("Erro:", e)
            speak_pt("Ocorreu um erro, tentando novamente.")
assistente_por_voz_colab()


<IPython.core.display.Javascript object>

N√£o captei nada. Vamos tentar de novo.


<IPython.core.display.Javascript object>

üó£Ô∏è  Voc√™ disse: Wikip√©dia
üîé Wikip√©dia ‚Äî a

Em tipografia, o indicador ordinal √© um s√≠mbolo adjacente ao n√∫mero para denot√°-lo como  ordinal  (e n√£o  cardinal). O exato s√≠mbolo utilizado varia de acordo com o idioma.


<IPython.core.display.Javascript object>

üó£Ô∏è  Voc√™ disse: sair


In [6]:
#Assistente de busca por texto.
def speak_pt_colab(texto, filename="tts.mp3"):
    """Gera arquivo de √°udio TTS e mostra link para tocar (n√£o bloqueia input)."""
    tts = gTTS(text=texto, lang="pt", tld="com.br")
    tts.save(filename)
    # Link clic√°vel para ouvir o √°udio
    display(HTML(f'<a href="{filename}" target="_blank">Clique aqui para ouvir a resposta</a>'))

def assistente_por_texto_colab():
    print("Assistente de texto iniciado. Digite seu comando ou 'sair' para encerrar.")

    while True:
        cmd = input("\nDigite um comando (ou 'sair'): ").strip()
        if not cmd:
            continue  # ignora entrada vazia

        print(f"Voc√™ digitou: {cmd}")
        resultado = executar_comando(cmd)

        # Gerar TTS sem bloquear input
        speak_pt_colab(f"Resposta do assistente: {cmd}")

        if resultado == "SAIR":
            break
assistente_por_texto_colab()

Assistente de texto iniciado. Digite seu comando ou 'sair' para encerrar.

Digite um comando (ou 'sair'): 

Digite um comando (ou 'sair'): Ol√°
Voc√™ digitou: Ol√°
N√£o entendi o comando. Diga 'ajuda' para ver exemplos.



Digite um comando (ou 'sair'): ajuda
Voc√™ digitou: ajuda
Voc√™ pode dizer: ‚Äòpesquisar [termo] na wikipedia‚Äô, ‚Äòwikipedia sobre [termo]‚Äô, ‚Äòabrir youtube para [termo]‚Äô, ou ‚Äòfarm√°cia mais pr√≥xima‚Äô. Diga ‚Äòsair‚Äô para encerrar.



Digite um comando (ou 'sair'): sair
Voc√™ digitou: sair
