<a href="https://colab.research.google.com/github/guscassiano/Dio_ML_bootcamp/blob/voice_assistent/voice_assistent.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**ü§ñ Projeto: Assistente de Voz com Python**
**Objetivo:** Criar um assistente de voz interativo capaz de entender comandos em portugu√™s, executar tarefas automatizadas e responder usando uma voz sintetizada.

**Como funciona?**\
Este notebook est√° dividido em 5 passos principais:

1. **Configura√ß√£o:** Instalamos todas as ferramentas (bibliotecas) que o nosso assistente precisa para funcionar.

2. **M√≥dulos Principais:** Constru√≠mos as duas habilidades essenciais do assistente: a capacidade de falar (*Text-to-Speech*) e de ouvir (*Speech-to-Text*).

3. **A√ß√µes do Assistente:** Definimos as tarefas que ele pode executar, como pesquisar na Wikipedia, abrir o YouTube, etc.

4. **O C√©rebro do Assistente:** Criamos a l√≥gica principal que conecta o que ele ouve com a a√ß√£o que ele deve tomar.

5. **Execu√ß√£o:** Iniciamos o assistente e come√ßamos a interagir!

In [33]:
# ==============================================================================
# PASSO 1: CONFIGURA√á√ÉO DO AMBIENTE E INSTALA√á√ÉO DAS BIBLIOTECAS
# ==============================================================================
# Antes de come√ßar, precisamos instalar todas as ferramentas necess√°rias.
# - gTTS: Para converter texto em √°udio (a "voz" do assistente).
# - SpeechRecognition: Para converter nossa fala em texto (o "ouvido" do assistente).
# - wikipedia: Para permitir que o assistente fa√ßa pesquisas na Wikipedia.
# - mutagen: Para que o programa saiba a dura√ß√£o do √°udio de resposta e espere ele terminar.
# - ffmpeg: Uma ferramenta poderosa para converter o formato do √°udio gravado.

print("Instalando bibliotecas necess√°rias...")
!pip install gTTS SpeechRecognition wikipedia mutagen &> /dev/null
!apt-get -qq install -y ffmpeg &> /dev/null
print("Instala√ß√£o conclu√≠da com sucesso!")

Instalando bibliotecas necess√°rias...
Instala√ß√£o conclu√≠da com sucesso!


## **Passo 2: Construindo os M√≥dulos Principais**
Agora vamos criar as duas fun√ß√µes mais importantes: `falar()` e `ouvir()`.\n

### **üîä M√≥dulo 1: A Voz do Assistente (Text-to-Speech)**
A fun√ß√£o `falar` recebe um texto, o transforma em um √°udio MP3 usando a API do Google, toca o √°udio e, de forma inteligente, espera a fala terminar antes de continuar o programa.

In [34]:
# ==============================================================================
# M√ìDULO 1: TEXT-TO-SPEECH (FALAR)
# ==============================================================================
from gtts import gTTS
from IPython.display import Audio, display
from mutagen.mp3 import MP3
import time
import subprocess

def falar(texto):
    """
    Converte uma string de texto em √°udio, reproduz e espera o √°udio terminar.
    """
    try:
        print(f"Assistente: {texto}")

        tts = gTTS(text=texto, lang='pt')
        tts.save('resposta.mp3')

        audio = MP3('resposta.mp3')
        duracao_audio = audio.info.length
        display(Audio('resposta.mp3', autoplay=True))

        # Isso evita que o assistente comece a ouvir enquanto ainda est√° falando
        time.sleep(duracao_audio + 0.5)

    except Exception as e:
        print(f"Ocorreu um erro no m√≥dulo de fala: {e}")

### **üé§ M√≥dulo 2: O Ouvido do Assistente (Speech-to-Text)**
A fun√ß√£o `ouvir` √© um pouco mais complexa. Ela usa um c√≥digo JavaScript para gravar o √°udio do seu microfone diretamente no Colab, converte esse √°udio para um formato compat√≠vel (WAV) e, finalmente, usa a API de reconhecimento de fala do Google para transcrever o que voc√™ disse para texto.

In [35]:
# ==============================================================================
# M√ìDULO 2: SPEECH-TO-TEXT (OUVIR)
# ==============================================================================
import speech_recognition as sr
from google.colab import output
from IPython.display import Javascript
from base64 import b64decode

r = sr.Recognizer()

# Snippet de JavaScript para gravar √°udio no navegador devido ao Colab
RECORD = """
const sleep  = time => new Promise(resolve => setTimeout(resolve, time))
const b2text = blob => new Promise(resolve => {
  const reader = new FileReader()
  reader.onloadend = e => resolve(e.srcElement.result)
  reader.readAsDataURL(blob)
})
var record = time => new Promise(async resolve => {
  stream = await navigator.mediaDevices.getUserMedia({ audio: true })
  recorder = new MediaRecorder(stream)
  chunks = []
  recorder.ondataavailable = e => chunks.push(e.data)
  recorder.start()
  await sleep(time)
  recorder.onstop = async ()=>{
    blob = new Blob(chunks)
    text = await b2text(blob)
    resolve(text)
  }
  recorder.stop()
})
"""

def ouvir():
    """
    Grava a fala do usu√°rio, converte para WAV e transcreve para texto.
    """
    try:
        print("Ouvindo por 5 segundos... (fale agora!)")
        display(Javascript(RECORD))
        s = output.eval_js('record(5000)')

        b = b64decode(s.split(',')[1])
        with open('audio_raw', 'wb') as f:
            f.write(b)

        subprocess.run(['ffmpeg', '-i', 'audio_raw', '-ac', '1', '-ar', '16000', 'audio.wav', '-y', '-hide_banner', '-loglevel', 'error'], check=True)

        with sr.AudioFile('audio.wav') as source:
            audio = r.record(source)
            texto = r.recognize_google(audio, language='pt-BR')
            print(f"Voc√™ disse: {texto}")
            return texto.lower()

    except sr.UnknownValueError:
        falar("Desculpe, n√£o consegui entender o que voc√™ disse.")
        return ""
    except sr.RequestError:
        falar("Desculpe, estou com problemas de conex√£o com o servi√ßo de reconhecimento.")
        return ""
    except Exception as e:
        print(f"Ocorreu um erro inesperado no m√≥dulo de audi√ß√£o: {e}")
        return ""

## **Passo 3: Criando as A√ß√µes do Assistente**
Aqui n√≥s definimos as fun√ß√µes que ser√£o acionadas por comandos de voz. Cada fun√ß√£o representa uma "habilidade" do nosso assistente.


In [36]:
# ==============================================================================
# M√ìDULO 3: FUN√á√ïES DE COMANDO (AS "HABILIDADES")
# ==============================================================================
import wikipedia
import webbrowser
import requests

def pesquisar_wikipedia(termo):
    """Pesquisa um termo na Wikipedia e fala um resumo."""
    try:
        print(f"Pesquisando '{termo}' na Wikipedia...")
        wikipedia.set_lang('pt')
        resultado = wikipedia.summary(termo, sentences=2)
        falar(resultado)
    except Exception as e:
        falar(f"Desculpe, n√£o encontrei resultados para {termo}. Tente outro termo.")

def abrir_youtube():
    """Abre o YouTube."""
    falar("Abrindo o YouTube.")
    # No Colab, n√£o √© poss√≠vel abrir uma aba diretamente. Em vez disso, geramos um link clic√°vel.
    print("Clique no link para abrir: https://www.youtube.com")

def encontrar_farmacia_proxima():
    """Usa a localiza√ß√£o por IP para gerar um link do Google Maps com farm√°cias pr√≥ximas."""
    try:
        # Usa uma API gratuita para obter a localiza√ß√£o aproximada baseada no seu IP
        response = requests.get('http://ip-api.com/json/').json()
        lat = response['lat']
        lon = response['lon']
        falar("Buscando por farm√°cias na sua localiza√ß√£o aproximada.")
        url = f"https://www.google.com/maps/search/farm√°cia/@{lat},{lon},15z"
        print(f"Clique no link para ver as farm√°cias pr√≥ximas: {url}")
    except Exception as e:
        falar("Desculpe, n√£o consegui obter sua localiza√ß√£o.")

## **Passo 4: O C√©rebro do Assistente - Juntando Tudo**
A fun√ß√£o `assistente` √© o cora√ß√£o do nosso projeto. Ela executa um loop infinito onde:

1. Chama a fun√ß√£o `ouvir()` para capturar um comando.

2. Verifica se o comando corresponde a alguma das palavras-chave (`"pesquisar"`, `"youtube"`, etc.).

3. Chama a fun√ß√£o de a√ß√£o correspondente.

4. O loop s√≥ √© quebrado se voc√™ disser "encerrar" ou "parar".

In [37]:
# ==============================================================================
# M√ìDULO 4: LOOP PRINCIPAL (O "C√âREBRO")
# ==============================================================================
def assistente():
    """
    Fun√ß√£o principal que ativa o assistente e gerencia os comandos.
    """
    falar("Ol√°! Sou seu assistente virtual. Como posso te ajudar hoje?")

    while True:
        comando = ouvir()

        if comando:
            if "pesquisar por" in comando:
                termo = comando.replace("pesquisar por", "").strip()
                pesquisar_wikipedia(termo)

            elif "abrir o youtube" in comando:
                abrir_youtube()

            elif "farm√°cia mais pr√≥xima" in comando:
                encontrar_farmacia_proxima()

            elif "encerrar" in comando or "parar" in comando:
                falar("Encerrando o assistente. At√© a pr√≥xima!")
                break
            else:
                falar("Desculpe, n√£o entendi o comando. Poderia repetir?")

## **Passo 5: Hora de Iniciar a Conversa!**
Tudo pronto! Agora √© s√≥ executar a c√©lula abaixo para dar vida ao seu assistente.

**Lembre-se:**

- Voc√™ precisar√° permitir o uso do microfone no seu navegador quando solicitado.

- Fale de forma clara durante os 5 segundos de grava√ß√£o.

**Comandos que voc√™ pode usar:**

- `"Pesquisar por [termo que voc√™ quer]"` (ex: "Pesquisar por Brasil")

- `"Abrir o YouTube"`

- `"Farm√°cia mais pr√≥xima"`

- `"Encerrar"` ou `"Parar"`

In [38]:
# ==============================================================================
# EXECU√á√ÉO DO ASSISTENTE
# ==============================================================================
# Ao executar esta c√©lula, o assistente ser√° iniciado.

assistente()

Assistente: Ol√°! Sou seu assistente virtual. Como posso te ajudar hoje?


Ouvindo por 5 segundos... (fale agora!)


<IPython.core.display.Javascript object>

Voc√™ disse: Ir ao YouTube
Assistente: Desculpe, n√£o entendi o comando. Poderia repetir?


Ouvindo por 5 segundos... (fale agora!)


<IPython.core.display.Javascript object>

Voc√™ disse: Abrir o YouTube
Assistente: Abrindo o YouTube.


Clique no link para abrir: https://www.youtube.com
Ouvindo por 5 segundos... (fale agora!)


<IPython.core.display.Javascript object>

Assistente: Desculpe, n√£o consegui entender o que voc√™ disse.


Ouvindo por 5 segundos... (fale agora!)


<IPython.core.display.Javascript object>

Voc√™ disse: encerrar encerrar
Assistente: Encerrando o assistente. At√© a pr√≥xima!
